核心要点
能写出 Q-Learning 更新公式
理解 off-policy、用 max 过后继动作
说明 model-free = 不需已知 P(s'|s,a)
知道收敛条件(表格、充分探索)
标准回答
Q-Learning 更新(离策略、model-free):
Q(s,a) ← Q(s,a) + α [ r + γ max_{a'} Q(s',a') - Q(s,a) ]
工作流程:
- 在状态 s 用行为策略(常 ε-greedy)选动作 a
- 执行 a,观测 r, s'
- 用最优后继动作的 Q 值构造 TD 目标(不管实际下一步采取什么动作)
- 重复直至收敛
为何 model-free:更新只需样本 (s,a,r,s'),不需要知道转移概率 P(s'|s,a) 或奖励模型 R(s,a)。与动态规划的价值迭代对比,DP 需完整模型。
收敛性(表格情形):学习率满足 Robbins-Monro 条件且每个 (s,a) 被无限次访问时,Q 收敛到 Q*。
常见误区
⚠️ 常见踩坑
把 model-free 误解为「不需要数据」;更新公式中 max 与 SARSA 混淆;忽视探索充分性条件。
追问
追问 1:Q-Learning 和 SARSA 更新有何不同?
Q-Learning 是 off-policy,更新用 max Q(s',a');SARSA 是 on-policy,用实际采取的 a' 更新。SARSA 更保守,在悬崖行走等场景更安全。
追问 2:为什么叫 off-policy?
行为策略(如 ε-greedy 探索)与目标策略(greedy w.r.t. Q)可以不同;更新目标按最优策略构造,因此学的是 Q* 而非当前行为策略的 Q^π。
追问 3:函数近似时 Q-Learning 还会收敛吗?
不再有表格情形的收敛保证。函数近似、自举、离策略三者叠加构成 deadly triad,价值可能发散。工程上 DQN 靠经验回放、目标网络、梯度裁剪与 Huber 损失稳定训练;理论上需 Gradient TD 等方法才有收敛保证,但实践中较少用。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。
📰 AI 资讯
🛠️ AI 工具
- Gymnasium
单代理强化学习环境 API 标准库(原 Gym 的继任者),提供丰富参考环境,适用于 RL 训练和研究