核心要点

  • 能对比 TD bootstrapping vs MC 完整回报

  • 理解 bias-variance trade-off

  • 能写出 SARSA 与 Q-Learning 更新式

  • 知道 TD(0)、TD(λ) 与 eligibility trace

简要回答

蒙特卡洛:目标 = 实际累积回报 G_t,episode 结束后更新;
TD:目标 = r + γ V(s')(一步 bootstrapping),每步可更新

标准回答

蒙特卡洛:目标 = 实际累积回报 G_t,episode 结束后更新。
TD:目标 = r + γ V(s')(一步 bootstrapping),每步可更新。

维度 MC TD(含 SARSA)
目标 G_t(真实回报) r + γV(s')(估计)
偏差 无偏 有偏(bootstrap)
方差 较低
在线性 需 episode 结束 可在线

SARSA(on-policy TD 控制):
Q(s,a) ← Q(s,a) + α [ r + γ Q(s',a') - Q(s,a) ]
其中 a' 是实际采取的下一步动作。

Q-Learning 用 max Q(s',·)(off-policy),SARSA 用 Q(s',a')(on-policy)。

TD(λ) 与 eligibility traces 在 bias-variance 间插值,λ=0 为 TD(0),λ=1 接近 MC。详见 RL 算法概览

常见误区

⚠️ 常见踩坑

TD 与 MC 对比只说「快 vs 慢」不说 bias-variance;SARSA 与 Q-Learning 的 max vs 实际动作混淆。

追问

追问 1SARSA 为什么叫 on-policy?

TD 目标中的后继动作 a' 来自当前行为策略(如 ε-greedy),更新的是 Q^π 而非 Q*。学的是「按当前策略行动」的价值,更保守。

追问 2TD 误差 δ_t = ?

δ_t = R_{t+1} + γ V(S_{t+1}) - V(S_t),即「自举目标 - 当前估计」。它是 V(S_t) 的增量更新方向:V(S_t) ← V(S_t) + α δ_t。δ 也出现在 Actor-Critic 中作为优势的近似,以及 eligibility trace 的加权项。

追问 3n-step TD 是什么?

用未来 n 步真实奖励再加第 n 步的自举值作目标:G_t^{(n)} = R_{t+1}+γR_{t+2}+...+γ^{n-1}R_{t+n}+γ^n V(S_{t+n})。n=1 即 TD(0),n→∞ 即 MC。增大 n 降偏差、升方差,是 bias-variance 的折中;TD(λ) 用 λ 对所有 n-step 目标做几何加权。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。