核心要点
能对比 TD bootstrapping vs MC 完整回报
理解 bias-variance trade-off
能写出 SARSA 与 Q-Learning 更新式
知道 TD(0)、TD(λ) 与 eligibility trace
简要回答
蒙特卡洛:目标 = 实际累积回报 G_t,episode 结束后更新;
TD:目标 = r + γ V(s')(一步 bootstrapping),每步可更新
标准回答
蒙特卡洛:目标 = 实际累积回报 G_t,episode 结束后更新。
TD:目标 = r + γ V(s')(一步 bootstrapping),每步可更新。
| 维度 | MC | TD(含 SARSA) |
|---|---|---|
| 目标 | G_t(真实回报) | r + γV(s')(估计) |
| 偏差 | 无偏 | 有偏(bootstrap) |
| 方差 | 高 | 较低 |
| 在线性 | 需 episode 结束 | 可在线 |
SARSA(on-policy TD 控制):
Q(s,a) ← Q(s,a) + α [ r + γ Q(s',a') - Q(s,a) ]
其中 a' 是实际采取的下一步动作。
Q-Learning 用 max Q(s',·)(off-policy),SARSA 用 Q(s',a')(on-policy)。
TD(λ) 与 eligibility traces 在 bias-variance 间插值,λ=0 为 TD(0),λ=1 接近 MC。详见 RL 算法概览。
常见误区
⚠️ 常见踩坑
TD 与 MC 对比只说「快 vs 慢」不说 bias-variance;SARSA 与 Q-Learning 的 max vs 实际动作混淆。
追问
追问 1:SARSA 为什么叫 on-policy?
TD 目标中的后继动作 a' 来自当前行为策略(如 ε-greedy),更新的是 Q^π 而非 Q*。学的是「按当前策略行动」的价值,更保守。
追问 2:TD 误差 δ_t = ?
δ_t = R_{t+1} + γ V(S_{t+1}) - V(S_t),即「自举目标 - 当前估计」。它是 V(S_t) 的增量更新方向:V(S_t) ← V(S_t) + α δ_t。δ 也出现在 Actor-Critic 中作为优势的近似,以及 eligibility trace 的加权项。
追问 3:n-step TD 是什么?
用未来 n 步真实奖励再加第 n 步的自举值作目标:G_t^{(n)} = R_{t+1}+γR_{t+2}+...+γ^{n-1}R_{t+n}+γ^n V(S_{t+n})。n=1 即 TD(0),n→∞ 即 MC。增大 n 降偏差、升方差,是 bias-variance 的折中;TD(λ) 用 λ 对所有 n-step 目标做几何加权。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。
📰 AI 资讯
🛠️ AI 工具
- Gymnasium
单代理强化学习环境 API 标准库(原 Gym 的继任者),提供丰富参考环境,适用于 RL 训练和研究