核心要点
能定义 model-based = 学/用环境模型规划
列举样本效率高、可规划等优势
说明模型误差累积、难建模等劣势
知道 MB-MF 混合与 MuZero 等代表
简要回答
Model-based RL(基于模型):学习转移模型 P̂(s'|s,a) 和/或奖励模型 R̂,用模型做规划(rollout、MPC、MCTS)选动作;
优势:
| 优势 | 说明 |
|---|---|
| 样本效率 | 可在模型中仿真大量轨迹,减少真实交互 |
| 规划能力 | MCTS(AlphaGo)、MPC 可深搜多步 |
| 可解释 | 模型可检视、调试 |
| 安全 | 仿真中试错,降低真实风险 |
劣势:
| 劣势 | 说明 |
|---|---|
| 模型误差 | 错误模型导致错误规划(compounding error) |
| 建模难度 | 高维连续、接触动力学难精确建模 |
| 计算开销 | 在线规划需实时 rollout |
| 偏差 | 过度信任模型忽略真实反馈 |
代表:Dyna-Q、PETS、MuZero(学隐式模型)、世界模型 研究
标准回答
Model-based RL(基于模型):学习转移模型 P̂(s'|s,a) 和/或奖励模型 R̂,用模型做规划(rollout、MPC、MCTS)选动作。
优势:
| 优势 | 说明 |
|---|---|
| 样本效率 | 可在模型中仿真大量轨迹,减少真实交互 |
| 规划能力 | MCTS(AlphaGo)、MPC 可深搜多步 |
| 可解释 | 模型可检视、调试 |
| 安全 | 仿真中试错,降低真实风险 |
劣势:
| 劣势 | 说明 |
|---|---|
| 模型误差 | 错误模型导致错误规划(compounding error) |
| 建模难度 | 高维连续、接触动力学难精确建模 |
| 计算开销 | 在线规划需实时 rollout |
| 偏差 | 过度信任模型忽略真实反馈 |
代表:Dyna-Q、PETS、MuZero(学隐式模型)、世界模型 研究。混合方法:model-based 初始化 + model-free 微调。详见 RL 算法概览。
常见误区
⚠️ 常见踩坑
把 model-based 说成「需要机器学习模型」;忽视 compounding error;不提与 model-free 的适用场景对比。
追问
追问 1:Dyna-Q 如何结合 model-based 与 model-free?
真实交互更新 Q 的同时学习模型;额外从模型采样虚拟转移更新 Q,提高样本效率。模型越准收益越大,模型差则引入噪声。
追问 2:MPC 在机器人中如何应用?
每步用当前模型预测 H 步 horizon,优化动作序列,执行首步后重新规划(receding horizon)。对模型精度与实时性要求高。
追问 3:MuZero 的「隐式模型」指什么?
不直接预测下一观测,而在隐空间预测转移与价值/策略,结合 MCTS 规划。避免像素级建模难,在围棋、Atari 取得 SOTA。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。
📰 AI 资讯
🛠️ AI 工具
- Gymnasium
单代理强化学习环境 API 标准库(原 Gym 的继任者),提供丰富参考环境,适用于 RL 训练和研究