Q-Learning

学每个动作值多少钱

亦作、亦称：Q Learning · Q 学习

Q-Learning 是一种无模型、离策略（off-policy）的强化学习算法，通过迭代更新状态-动作价值函数 Q(s,a) 逼近最优行动策略。它无需预先了解环境模型，仅凭与环境的交互即可在有限马尔可夫决策过程中收敛到最优策略，是 DQN 等深度强化学习方法的理论基础。

概述

核心定义

Q-Learning 的目标是学习一张「Q 表」或等价的价值函数，记录在状态 s 下执行动作 a 的长期期望累积回报。

Q(s,a)：状态-动作价值函数，衡量「在状态 s 采取动作 a 有多值钱」
无模型（model-free）：不需要知道状态转移概率或奖励函数，直接从样本中学习
离策略（off-policy）：行为策略（如 ε-贪婪探索）与目标策略（贪婪策略）可以不同，更新时使用目标策略的最大 Q 值
更新公式：Q(s,a) ← Q(s,a) + α [r + γ · max_a′ Q(s′,a′) − Q(s,a)]，其中 α 为学习率，γ 为折扣因子

贝尔曼最优方程

Q-Learning 的理论基础来自动态规划中的贝尔曼最优方程，保证了迭代更新的收敛性。

贝尔曼算子是压缩映射（contraction mapping），保证迭代更新最终收敛
核心思想：当前动作的价值 = 即时奖励 + 折扣后的未来最优价值
时序差分（TD）误差：r + γ · max Q(s′,a′) − Q(s,a)，即预测值与目标值之差，驱动参数更新
收敛条件：所有状态-动作对被无限次访问、学习率满足 Robbins-Monro 条件（∑α=∞，∑α²<∞）、折扣因子 γ < 1

收敛性保证

Watkins 与 Dayan 在 1992 年的正式论文中给出了严格的收敛证明，这是 Q-Learning 区别于其他启发式方法的重要特征。

只要每个状态-动作对被反复采样，Q 值以离散形式表示，算法以概率 1 收敛到最优 Q*
离策略特性允许利用历史数据（经验回放）重复学习，不受行为策略限制
表格型 Q-Learning 在有限马尔可夫决策过程中具有完整理论保障
引入神经网络函数逼近后（如 DQN），收敛性需要额外技巧（目标网络、经验回放）来稳定训练

主要变体

从经典表格版演化出多个重要分支，以应对更大规模的状态-动作空间。

表格 Q-Learning：最原始形式，适用于状态和动作空间都较小的离散问题（如迷宫、小棋盘）
DQN（Deep Q-Network）：2013 年 DeepMind 提出，用深度卷积网络替代 Q 表，引入经验回放与固定目标网络解决训练不稳定，2015 年发表于 Nature
Double DQN：将动作选择与价值估计解耦，有效缓解标准 Q-Learning 系统性高估 Q 值的偏差
Dueling DQN：将 Q 值分解为状态价值 V(s) 与优势函数 A(s,a)，在动作差异小时提升学习效率
Rainbow：2017 年 DeepMind 将六种改进整合为单一智能体，成为离散动作空间的重要基线

发展脉络

Q-Learning 从理论算法到深度强化学习核心组件，经历了三十余年演进。

1989：Watkins 在剑桥大学博士论文《Learning from Delayed Rewards》中提出 Q-Learning
1992：Watkins 与 Dayan 合著论文在 Machine Learning 期刊正式发表，给出完整收敛性证明
2013：DeepMind 发布 DQN 预印本，将 Q-Learning 与深度卷积网络结合，在 Atari 游戏上验证突破
2015：DQN 改进版发表于 Nature，在 49 款 Atari 游戏中超越人类水平，引发深度强化学习研究热潮
2016-2017：Double DQN、Dueling DQN、Prioritized Experience Replay、Rainbow 相继提出，系统性完善 DQN 体系
2020：Conservative Q-Learning（CQL）将 Q-Learning 扩展到离线强化学习场景，推动无在线交互的策略学习

典型应用场景

Q-Learning 及其变体广泛用于离散动作空间的序列决策问题，尤其在环境模型未知时具有优势。

游戏 AI：Atari、棋盘游戏等离散操作环境，DQN 在 49 款 Atari 游戏上超越人类平均水平是标志性成果
机器人控制：状态-动作空间离散化后用于路径规划、导航等任务
推荐系统：将用户会话建模为序列决策过程，优化长期点击率或留存等全局指标
资源调度：网络路由选择、数据中心任务调度等可建模为马尔可夫决策过程的优化问题
离线强化学习：CQL 等方法将 Q-Learning 扩展到从固定历史数据集学习策略的场景

局限与注意事项

Q-Learning 理论上优雅，但实际使用中存在几个典型挑战。

维度灾难：表格方式随状态-动作空间指数增长，必须配合函数逼近才能扩展到复杂问题
高估偏差：max 操作导致 Q 值系统性高估，Double DQN 通过解耦选择与估计来缓解
样本效率低：无模型算法通常需要大量交互才能收敛，在真实物理系统中代价高昂
连续动作不适用：依赖对所有动作取最大值，连续域需改用 SAC、TD3 等策略梯度类方法
超参数敏感：学习率、折扣因子、ε 衰减策略对收敛速度和稳定性影响显著

常见误解

日常交流中容易听到的简化说法，未必准确，但能帮助理解误解从何而来。

「学每个动作值多少钱」
「不用模型也能学策略」
「DQN 的表格版基础」

延伸阅读

从知识库精选 3 篇文章，帮助深入理解该术语。

外部参考

维基百科：查看「Q-Learning」词条

本页内容为本站原创撰写；维基百科链接仅作延伸参考。