核心要点

  • 能写出 Q-Learning 更新公式

  • 理解 off-policy、用 max 过后继动作

  • 说明 model-free = 不需已知 P(s'|s,a)

  • 知道收敛条件(表格、充分探索)

简要回答

Q-Learning 更新(离策略、model-free):
Q(s,a) ← Q(s,a) + α [ r + γ max_{a'} Q(s',a') - Q(s,a) ]

工作流程

  1. 在状态 s 用行为策略(常 ε-greedy)选动作 a
  2. 执行 a,观测 r, s'
  3. 最优后继动作的 Q 值构造 TD 目标(不管实际下一步采取什么动作)
  4. 重复直至收敛

为何 model-free:更新只需样本 (s,a,r,s'),不需要知道转移概率 P(s'|s,a) 或奖励模型 R(s,a);与动态规划的价值迭代对比,DP 需完整模型

标准回答

Q-Learning 更新(离策略、model-free):
Q(s,a) ← Q(s,a) + α [ r + γ max_{a'} Q(s',a') - Q(s,a) ]

工作流程

  1. 在状态 s 用行为策略(常 ε-greedy)选动作 a
  2. 执行 a,观测 r, s'
  3. 最优后继动作的 Q 值构造 TD 目标(不管实际下一步采取什么动作)
  4. 重复直至收敛

为何 model-free:更新只需样本 (s,a,r,s'),不需要知道转移概率 P(s'|s,a) 或奖励模型 R(s,a)。与动态规划的价值迭代对比,DP 需完整模型。

收敛性(表格情形):学习率满足 Robbins-Monro 条件且每个 (s,a) 被无限次访问时,Q 收敛到 Q*。

延伸DQN神经网络参数化 Q,是 Q-Learning 的深度扩展。详见 深度 Q 网络

常见误区

⚠️ 常见踩坑

把 model-free 误解为「不需要数据」;更新公式中 max 与 SARSA 混淆;忽视探索充分性条件。

追问

追问 1Q-Learning 和 SARSA 更新有何不同?

Q-Learning 是 off-policy,更新用 max Q(s',a');SARSA 是 on-policy,用实际采取的 a' 更新。SARSA 更保守,在悬崖行走等场景更安全。

追问 2为什么叫 off-policy?

行为策略(如 ε-greedy 探索)与目标策略(greedy w.r.t. Q)可以不同;更新目标按最优策略构造,因此学的是 Q* 而非当前行为策略的 Q^π。

追问 3函数近似时 Q-Learning 还会收敛吗?

不再有表格情形的收敛保证。函数近似、自举、离策略三者叠加构成 deadly triad,价值可能发散。工程上 DQN 靠经验回放、目标网络、梯度裁剪与 Huber 损失稳定训练;理论上需 Gradient TD 等方法才有收敛保证,但实践中较少用。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。