SARSA 等时序差分方法与蒙特卡洛方法有何区别？

Question 1

Accepted Answer

蒙特卡洛：目标 = 实际累积回报 G_t，episode 结束后更新。 TD：目标 = r + γ V(s')（一步 bootstrapping），每步可更新。 维度 MC TD（含 SARSA） ------ ----- ---------------- 目标 G_t（真实回报） r + γV(s')（估计） 偏差 无偏 有偏（bootstrap） 方差 高 较低 在线性 需 episode 结束 可在线 SARSA（on-policy TD 控制）： Q(s,a) ← Q(s,a) + α [ r + γ Q(s',a') - Q(s,a) ] 其中 a' 是实际采取的下一步动作。 Q-Learning 用 max Q(s',·)（off-policy），SARSA 用 Q(s',a')（on-policy）。 TD(λ) 与 eligibility traces 在 bias-variance 间插值，λ=0 为 TD(0)，λ=1 接近 MC。详见 RL 算法概览。

Question 2

SARSA 为什么叫 on-policy？

Accepted Answer

TD 目标中的后继动作 a' 来自当前行为策略（如 ε-greedy），更新的是 Q^π 而非 Q*。学的是「按当前策略行动」的价值，更保守。

Question 3

TD 误差 δ_t = ?

Accepted Answer

δ_t = R_{t+1} + γ V(S_{t+1}) - V(S_t)，即「自举目标 - 当前估计」。它是 V(S_t) 的增量更新方向：V(S_t) ← V(S_t) + α δ_t。δ 也出现在 Actor-Critic 中作为优势的近似，以及 eligibility trace 的加权项。

Question 4

n-step TD 是什么？

Accepted Answer

用未来 n 步真实奖励再加第 n 步的自举值作目标：G_t^{(n)} = R_{t+1}+γR_{t+2}+...+γ^{n-1}R_{t+n}+γ^n V(S_{t+n})。n=1 即 TD(0)，n→∞ 即 MC。增大 n 降偏差、升方差，是 bias-variance 的折中；TD(λ) 用 λ 对所有 n-step 目标做几何加权。

SARSA 等时序差分方法与蒙特卡洛方法有何区别？

核心要点

简要回答

标准回答

常见误区

追问

延伸学习


维度	MC	TD（含 SARSA）
目标	G_t（真实回报）	r + γV(s')（估计）
偏差	无偏	有偏（bootstrap）
方差	高	较低
在线性	需 episode 结束	可在线