简要回答
蒙特卡洛(MC)RL 核心:不依赖环境模型,用实际经验轨迹估计价值;
更新方式:对状态 s,收集经过 s 的多个 episode,用实际回报 G_t 的平均估计 V(s):
V(s) ← V(s) + α(G_t - V(s))
两种变体:
- First-visit MC:每个 episode 中只对 s 的第一次访问用 G_t 更新
- Every-visit MC:每次访问 s 都用对应 G_t 更新
特点:
| 维度 | MC | TD |
|---|---|---|
| 目标 | 完整回报 G_t | r + γV(s') bootstrapping |
| 偏差 | 无偏(真实回报) | 有偏(用估计值) |
| 方差 | 高 | 较低 |
| 更新时机 | episode 结束 | 每步可更新 |
适用:episode 较短、奖励只在终止时给出(如围棋胜负)
标准回答
蒙特卡洛(MC)RL 核心:不依赖环境模型,用实际经验轨迹估计价值。
更新方式:对状态 s,收集经过 s 的多个 episode,用实际回报 G_t 的平均估计 V(s):
V(s) ← V(s) + α(G_t - V(s))
两种变体:
- First-visit MC:每个 episode 中只对 s 的第一次访问用 G_t 更新
- Every-visit MC:每次访问 s 都用对应 G_t 更新
特点:
| 维度 | MC | TD |
|---|---|---|
| 目标 | 完整回报 G_t | r + γV(s') bootstrapping |
| 偏差 | 无偏(真实回报) | 有偏(用估计值) |
| 方差 | 高 | 较低 |
| 更新时机 | episode 结束 | 每步可更新 |
适用:episode 较短、奖励只在终止时给出(如围棋胜负);与 时序差分学习 结合有 TD(λ) 等折中。详见 RL 算法概览。
常见误区
⚠️ 常见踩坑
把 MC 当成「随机采样」而不强调完整 episode 回报;与 TD 对比时说不出 bias-variance trade-off。
追问
追问 1:MC 能用于连续任务吗?
持续性任务 episode 不终止,需定义截断 horizon 或用折扣回报在有限窗口估计,否则无法获得完整 G_t。实践中 TD 更适合 continuing 任务。
追问 2:为什么 MC 方差大?
G_t 包含整条轨迹的随机性(动作、转移),样本间波动大。需更多 episode 平均;可用 baseline、控制变量或转向 TD/GAE 降方差。
追问 3:MC 策略评估 vs MC 控制有何不同?
评估固定策略 π 的价值;控制需探索(如 ε-greedy)并策略改进。MC 控制常用 GLIE(探索收敛)保证收敛到最优。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。
📰 AI 资讯
🛠️ AI 工具
- Gymnasium
单代理强化学习环境 API 标准库(原 Gym 的继任者),提供丰富参考环境,适用于 RL 训练和研究