核心要点

  • 能定义 model-based = 学/用环境模型规划

  • 列举样本效率高、可规划等优势

  • 说明模型误差累积、难建模等劣势

  • 知道 MB-MF 混合与 MuZero 等代表

简要回答

Model-based RL(基于模型):学习转移模型 P̂(s'|s,a) 和/或奖励模型 R̂,用模型做规划(rollout、MPC、MCTS)选动作;

优势

优势 说明
样本效率 可在模型中仿真大量轨迹,减少真实交互
规划能力 MCTS(AlphaGo)、MPC 可深搜多步
可解释 模型可检视、调试
安全 仿真中试错,降低真实风险

劣势

劣势 说明
模型误差 错误模型导致错误规划(compounding error)
建模难度 高维连续、接触动力学难精确建模
计算开销 在线规划需实时 rollout
偏差 过度信任模型忽略真实反馈

代表:Dyna-Q、PETS、MuZero(学隐式模型)、世界模型 研究

标准回答

Model-based RL(基于模型):学习转移模型 P̂(s'|s,a) 和/或奖励模型 R̂,用模型做规划(rollout、MPC、MCTS)选动作。

优势

优势 说明
样本效率 可在模型中仿真大量轨迹,减少真实交互
规划能力 MCTS(AlphaGo)、MPC 可深搜多步
可解释 模型可检视、调试
安全 仿真中试错,降低真实风险

劣势

劣势 说明
模型误差 错误模型导致错误规划(compounding error)
建模难度 高维连续、接触动力学难精确建模
计算开销 在线规划需实时 rollout
偏差 过度信任模型忽略真实反馈

代表:Dyna-Q、PETS、MuZero(学隐式模型)、世界模型 研究。混合方法:model-based 初始化 + model-free 微调。详见 RL 算法概览

常见误区

⚠️ 常见踩坑

把 model-based 说成「需要机器学习模型」;忽视 compounding error;不提与 model-free 的适用场景对比。

追问

追问 1Dyna-Q 如何结合 model-based 与 model-free?

真实交互更新 Q 的同时学习模型;额外从模型采样虚拟转移更新 Q,提高样本效率。模型越准收益越大,模型差则引入噪声。

追问 2MPC 在机器人中如何应用?

每步用当前模型预测 H 步 horizon,优化动作序列,执行首步后重新规划(receding horizon)。对模型精度与实时性要求高。

追问 3MuZero 的「隐式模型」指什么?

不直接预测下一观测,而在隐空间预测转移与价值/策略,结合 MCTS 规划。避免像素级建模难,在围棋、Atari 取得 SOTA。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。