蒙特卡洛方法在强化学习中如何应用？

Question 1

蒙特卡洛方法在强化学习中如何应用？

Accepted Answer

蒙特卡洛（MC）RL 核心：不依赖环境模型，用实际经验轨迹估计价值。 更新方式：对状态 s，收集经过 s 的多个 episode，用实际回报 G_t 的平均估计 V(s)： V(s) ← V(s) + α(G_t - V(s)) 两种变体： - First-visit MC：每个 episode 中只对 s 的第一次访问用 G_t 更新 - Every-visit MC：每次访问 s 都用对应 G_t 更新 特点： 维度 MC TD ------ ----- ----- 目标 完整回报 G_t r + γV(s') bootstrapping 偏差 无偏（真实回报） 有偏（用估计值） 方差 高 较低 更新时机 episode 结束 每步可更新 适用：episode 较短、奖励只在终止时给出（如围棋胜负）；与 时序差分学习 结合有 TD(λ) 等折中。详见 RL 算法概览。

Question 2

MC 能用于连续任务吗？

Accepted Answer

持续性任务 episode 不终止，需定义截断 horizon 或用折扣回报在有限窗口估计，否则无法获得完整 G_t。实践中 TD 更适合 continuing 任务。

Question 3

为什么 MC 方差大？

Accepted Answer

G_t 包含整条轨迹的随机性（动作、转移），样本间波动大。需更多 episode 平均；可用 baseline、控制变量或转向 TD/GAE 降方差。

Question 4

MC 策略评估 vs MC 控制有何不同？

Accepted Answer

评估固定策略 π 的价值；控制需探索（如 ε-greedy）并策略改进。MC 控制常用 GLIE（探索收敛）保证收敛到最优。

蒙特卡洛方法在强化学习中如何应用？

核心要点

简要回答

标准回答

常见误区

追问

延伸学习


维度	MC	TD
目标	完整回报 G_t	r + γV(s') bootstrapping
偏差	无偏（真实回报）	有偏（用估计值）
方差	高	较低
更新时机	episode 结束	每步可更新