Temporal Difference Learning(时序差分学习)
就是每走一步就立刻更新一次对当前状态有多好的判断,不用等到游戏结束才算分。
亦作、亦称:时序差分学习 · TD Learning · TD · 时序差分 · 时间差分学习
时序差分学习是强化学习的核心范式,通过逐步比较相邻时刻的价值预测来在线修正策略,无需完整轨迹。它既是 Q-learning、Sarsa 等经典算法的基础,也是 DQN、AlphaGo 等深度强化学习突破的理论根基。
概述
时序差分学习(TD Learning)是强化学习中最具代表性的在线学习方法。
- 核心目标:无需环境模型,通过与环境交互在线估计状态价值函数 V(s)
- 自举机制:用下一状态的当前估计值 V(s') 来更新当前状态的估计值,避免等待回合结束
- TD 误差:δ = r + γV(s') − V(s),衡量预测与「更好预测」之间的差距
- 地位:Sutton & Barto 称其为「强化学习中最核心、最独特的思想」
工作原理
TD 学习的更新规则简洁而高效,每步交互后立即执行。
- 观察转移:智能体在状态 s 执行动作 a,获得奖励 r,转移到 s'
- 计算 TD 误差:δ = r + γV(s') − V(s),其中 γ 为折扣因子
- 更新价值:V(s) ← V(s) + α·δ,α 为学习率
- 自举对比:与蒙特卡洛不同,不等到终态;与动态规划不同,不需要转移概率模型
- 收敛保证:在表格型、线性近似等条件下,TD(0) 可被证明收敛至真实价值函数
主要变体
TD 方法衍生出一系列重要算法,覆盖预测与控制两大任务。
- TD(0):单步自举,仅用下一步的估计值更新,最简洁的形式
- TD(λ):通过资格迹(eligibility traces)混合多步回报,λ=0 退化为 TD(0),λ=1 近似蒙特卡洛
- Sarsa:将 TD 思想扩展到动作价值函数 Q(s,a) 的在策略(on-policy)控制
- Q-learning:离策略(off-policy)TD 控制,直接逼近最优动作价值函数
- Deep Q-Network(DQN):结合深度神经网络与 TD 误差,实现端到端强化学习
应用场景
TD 学习在游戏、控制和决策等领域均有标志性应用。
- TD-Gammon(1992):Gerald Tesauro 用 TD(λ) 训练西洋双陆棋程序,达到人类顶级水平,是早期 RL 里程碑
- AlphaGo / AlphaZero:以 TD 类方法估计棋局价值,结合蒙特卡洛树搜索,击败世界冠军
- 机器人控制:在线学习运动策略,无需精确物理模型
- 推荐系统:将用户会话建模为马尔可夫决策过程,用 TD 方法优化长期点击/留存
- 金融量化:动态资产组合管理,通过 TD 误差调整持仓策略
与相邻概念的区别
TD 学习常与蒙特卡洛(MC)和动态规划(DP)对比,三者构成强化学习的核心三角。
- vs 蒙特卡洛:MC 需等待回合结束才更新,方差高;TD 在线更新,方差低但有偏差(bias)
- vs 动态规划:DP 需完整环境模型(转移概率);TD 无模型,从实际交互中学习
- vs Q-learning:Q-learning 是离策略 TD,用贪心最大值更新;Sarsa 是在策略 TD,用实际动作更新
- 偏差-方差权衡:TD(λ) 通过 λ 在 TD(低方差高偏差)与 MC(无偏差高方差)之间平滑插值
局限与误区
理解 TD 学习的常见陷阱有助于正确工程落地。
- 致命三角(Deadly Triad):函数逼近 + 自举 + 离策略同时出现时,可能导致价值发散
- 超参数敏感:学习率 α、折扣因子 γ 和 λ 均需仔细调优,设置不当会导致震荡或不收敛
- 误区一:认为 TD 只能用于回合制任务——实际上 TD(0) 也适用于持续型(continuing)任务
- 误区二:将 TD 误差等同于损失函数——TD 误差用于价值更新,并不反映策略优劣,需配合策略梯度或 Actor-Critic 框架
- 样本效率:相比模型基(model-based)方法,纯 TD 方法在样本效率上仍有差距
发展脉络
TD 学习的演进跨越数十年,持续推动强化学习前沿。
- 1959 年:Samuel 在跳棋程序中隐式使用了 TD 思想(「评论者」更新)
- 1988 年:Sutton 在 Machine Learning 发表《Learning to Predict by the Methods of Temporal Differences》,正式确立理论框架
- 1992 年:Watkins 提出 Q-learning,将 TD 扩展到离策略控制;Tesauro 发布 TD-Gammon
- 1994 年:Rummery & Niranjan 提出 Sarsa,在策略 TD 控制的标准算法
- 2013–2015 年:DeepMind 将 TD 误差与深度神经网络结合,提出 DQN,开启深度强化学习时代
- 2016–2017 年:AlphaGo / AlphaZero 将 TD 类价值估计推向围棋世界冠军级别
- 2018 年至今:TD 方法与分布式强化学习、离线强化学习、基于模型的强化学习持续融合
常见误解
日常交流中容易听到的简化说法,未必准确,但能帮助理解误解从何而来。
- 「就是每走一步就立刻更新一次对当前状态有多好的判断,不用等到游戏结束才算分。」
- 「TD 学习就是『边走边猜、边猜边纠错』——用下一步的预测去修正这一步的预测。」
- 「有人以为 TD 一定要等到回合结束才能学,其实不然,它每一步都在学,这正是它比蒙特卡洛更高效的地方。」
相关术语
和本术语关联紧密的其他词条,便于串联理解。
延伸阅读
从知识库精选 1 篇文章,帮助深入理解该术语。
外部参考
维基百科:查看「Temporal Difference Learning」词条本页内容为本站原创撰写;维基百科链接仅作延伸参考。