核心要点

  • 能说明 MC 用完整 episode 回报更新价值

  • 理解与 TD bootstrapping 的核心区别

  • 知道 first-visit vs every-visit MC

  • 能分析 MC 高方差、需等 episode 结束的特点

简要回答

蒙特卡洛(MC)RL 核心:不依赖环境模型,用实际经验轨迹估计价值;

更新方式:对状态 s,收集经过 s 的多个 episode,用实际回报 G_t 的平均估计 V(s):
V(s) ← V(s) + α(G_t - V(s))

两种变体

  • First-visit MC:每个 episode 中只对 s 的第一次访问用 G_t 更新
  • Every-visit MC:每次访问 s 都用对应 G_t 更新

特点

维度 MC TD
目标 完整回报 G_t r + γV(s') bootstrapping
偏差 无偏(真实回报) 有偏(用估计值)
方差 较低
更新时机 episode 结束 每步可更新

适用:episode 较短、奖励只在终止时给出(如围棋胜负)

标准回答

蒙特卡洛(MC)RL 核心:不依赖环境模型,用实际经验轨迹估计价值。

更新方式:对状态 s,收集经过 s 的多个 episode,用实际回报 G_t 的平均估计 V(s):
V(s) ← V(s) + α(G_t - V(s))

两种变体

  • First-visit MC:每个 episode 中只对 s 的第一次访问用 G_t 更新
  • Every-visit MC:每次访问 s 都用对应 G_t 更新

特点

维度 MC TD
目标 完整回报 G_t r + γV(s') bootstrapping
偏差 无偏(真实回报) 有偏(用估计值)
方差 较低
更新时机 episode 结束 每步可更新

适用:episode 较短、奖励只在终止时给出(如围棋胜负);与 时序差分学习 结合有 TD(λ) 等折中。详见 RL 算法概览

常见误区

⚠️ 常见踩坑

把 MC 当成「随机采样」而不强调完整 episode 回报;与 TD 对比时说不出 bias-variance trade-off。

追问

追问 1MC 能用于连续任务吗?

持续性任务 episode 不终止,需定义截断 horizon 或用折扣回报在有限窗口估计,否则无法获得完整 G_t。实践中 TD 更适合 continuing 任务。

追问 2为什么 MC 方差大?

G_t 包含整条轨迹的随机性(动作、转移),样本间波动大。需更多 episode 平均;可用 baseline、控制变量或转向 TD/GAE 降方差。

追问 3MC 策略评估 vs MC 控制有何不同?

评估固定策略 π 的价值;控制需探索(如 ε-greedy)并策略改进。MC 控制常用 GLIE(探索收敛)保证收敛到最优。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。