Q-Learning 如何工作？为何属于无模型方法？

Question 1

Accepted Answer

Q-Learning 更新（离策略、model-free）： Q(s,a) ← Q(s,a) + α [ r + γ max_{a'} Q(s',a') - Q(s,a) ] 工作流程： 1. 在状态 s 用行为策略（常 ε-greedy）选动作 a 2. 执行 a，观测 r, s' 3. 用最优后继动作的 Q 值构造 TD 目标（不管实际下一步采取什么动作） 4. 重复直至收敛 为何 model-free：更新只需样本 (s,a,r,s')，不需要知道转移概率 P(s' s,a) 或奖励模型 R(s,a)。与动态规划的价值迭代对比，DP 需完整模型。 收敛性（表格情形）：学习率满足 Robbins-Monro 条件且每个 (s,a) 被无限次访问时，Q 收敛到 Q*。 延伸：DQN 用神经网络参数化 Q，是 Q-Learning 的深度扩展。详见 深度 Q 网络。

Question 2

Q-Learning 和 SARSA 更新有何不同？

Accepted Answer

Q-Learning 是 off-policy，更新用 max Q(s',a')；SARSA 是 on-policy，用实际采取的 a' 更新。SARSA 更保守，在悬崖行走等场景更安全。

Question 3

为什么叫 off-policy？

Accepted Answer

行为策略（如 ε-greedy 探索）与目标策略（greedy w.r.t. Q）可以不同；更新目标按最优策略构造，因此学的是 Q* 而非当前行为策略的 Q^π。

Question 4

函数近似时 Q-Learning 还会收敛吗？

Accepted Answer

不再有表格情形的收敛保证。函数近似、自举、离策略三者叠加构成 deadly triad，价值可能发散。工程上 DQN 靠经验回放、目标网络、梯度裁剪与 Huber 损失稳定训练；理论上需 Gradient TD 等方法才有收敛保证，但实践中较少用。

Q-Learning 如何工作？为何属于无模型方法？

核心要点

简要回答

标准回答

常见误区

追问

延伸学习