Temporal Difference Learning（时序差分学习）

就是每走一步就立刻更新一次对当前状态有多好的判断，不用等到游戏结束才算分。

亦作、亦称：时序差分学习 · TD Learning · TD · 时序差分 · 时间差分学习

时序差分学习是强化学习的核心范式，通过逐步比较相邻时刻的价值预测来在线修正策略，无需完整轨迹。它既是 Q-learning、Sarsa 等经典算法的基础，也是 DQN、AlphaGo 等深度强化学习突破的理论根基。

概述

时序差分学习（TD Learning）是强化学习中最具代表性的在线学习方法。

核心目标：无需环境模型，通过与环境交互在线估计状态价值函数 V(s)
自举机制：用下一状态的当前估计值 V(s') 来更新当前状态的估计值，避免等待回合结束
TD 误差：δ = r + γV(s') − V(s)，衡量预测与「更好预测」之间的差距
地位：Sutton & Barto 称其为「强化学习中最核心、最独特的思想」

工作原理

TD 学习的更新规则简洁而高效，每步交互后立即执行。

观察转移：智能体在状态 s 执行动作 a，获得奖励 r，转移到 s'
计算 TD 误差：δ = r + γV(s') − V(s)，其中 γ 为折扣因子
更新价值：V(s) ← V(s) + α·δ，α 为学习率
自举对比：与蒙特卡洛不同，不等到终态；与动态规划不同，不需要转移概率模型
收敛保证：在表格型、线性近似等条件下，TD(0) 可被证明收敛至真实价值函数

主要变体

TD 方法衍生出一系列重要算法，覆盖预测与控制两大任务。

TD(0)：单步自举，仅用下一步的估计值更新，最简洁的形式
TD(λ)：通过资格迹（eligibility traces）混合多步回报，λ=0 退化为 TD(0)，λ=1 近似蒙特卡洛
Sarsa：将 TD 思想扩展到动作价值函数 Q(s,a) 的在策略（on-policy）控制
Q-learning：离策略（off-policy）TD 控制，直接逼近最优动作价值函数
Deep Q-Network（DQN）：结合深度神经网络与 TD 误差，实现端到端强化学习

应用场景

TD 学习在游戏、控制和决策等领域均有标志性应用。

TD-Gammon（1992）：Gerald Tesauro 用 TD(λ) 训练西洋双陆棋程序，达到人类顶级水平，是早期 RL 里程碑
AlphaGo / AlphaZero：以 TD 类方法估计棋局价值，结合蒙特卡洛树搜索，击败世界冠军
机器人控制：在线学习运动策略，无需精确物理模型
推荐系统：将用户会话建模为马尔可夫决策过程，用 TD 方法优化长期点击/留存
金融量化：动态资产组合管理，通过 TD 误差调整持仓策略

与相邻概念的区别

TD 学习常与蒙特卡洛（MC）和动态规划（DP）对比，三者构成强化学习的核心三角。

vs 蒙特卡洛：MC 需等待回合结束才更新，方差高；TD 在线更新，方差低但有偏差（bias）
vs 动态规划：DP 需完整环境模型（转移概率）；TD 无模型，从实际交互中学习
vs Q-learning：Q-learning 是离策略 TD，用贪心最大值更新；Sarsa 是在策略 TD，用实际动作更新
偏差-方差权衡：TD(λ) 通过 λ 在 TD（低方差高偏差）与 MC（无偏差高方差）之间平滑插值

局限与误区

理解 TD 学习的常见陷阱有助于正确工程落地。

致命三角（Deadly Triad）：函数逼近 + 自举 + 离策略同时出现时，可能导致价值发散
超参数敏感：学习率 α、折扣因子 γ 和 λ 均需仔细调优，设置不当会导致震荡或不收敛
误区一：认为 TD 只能用于回合制任务——实际上 TD(0) 也适用于持续型（continuing）任务
误区二：将 TD 误差等同于损失函数——TD 误差用于价值更新，并不反映策略优劣，需配合策略梯度或 Actor-Critic 框架
样本效率：相比模型基（model-based）方法，纯 TD 方法在样本效率上仍有差距

发展脉络

TD 学习的演进跨越数十年，持续推动强化学习前沿。

1959 年：Samuel 在跳棋程序中隐式使用了 TD 思想（「评论者」更新）
1988 年：Sutton 在 Machine Learning 发表《Learning to Predict by the Methods of Temporal Differences》，正式确立理论框架
1992 年：Watkins 提出 Q-learning，将 TD 扩展到离策略控制；Tesauro 发布 TD-Gammon
1994 年：Rummery & Niranjan 提出 Sarsa，在策略 TD 控制的标准算法
2013–2015 年：DeepMind 将 TD 误差与深度神经网络结合，提出 DQN，开启深度强化学习时代
2016–2017 年：AlphaGo / AlphaZero 将 TD 类价值估计推向围棋世界冠军级别
2018 年至今：TD 方法与分布式强化学习、离线强化学习、基于模型的强化学习持续融合

常见误解

日常交流中容易听到的简化说法，未必准确，但能帮助理解误解从何而来。

「就是每走一步就立刻更新一次对当前状态有多好的判断，不用等到游戏结束才算分。」
「TD 学习就是『边走边猜、边猜边纠错』——用下一步的预测去修正这一步的预测。」
「有人以为 TD 一定要等到回合结束才能学，其实不然，它每一步都在学，这正是它比蒙特卡洛更高效的地方。」

相关术语

和本术语关联紧密的其他词条，便于串联理解。

延伸阅读

从知识库精选 1 篇文章，帮助深入理解该术语。

1
Actor-Critic：A2C 与 A3C
结合值方法和策略梯度，理解 Actor-Critic 架构的优势

外部参考

维基百科：查看「Temporal Difference Learning」词条

本页内容为本站原创撰写；维基百科链接仅作延伸参考。