基于模型的强化学习有哪些优缺点？

Question 1

基于模型的强化学习有哪些优缺点？

Accepted Answer

Model-based RL（基于模型）：学习转移模型 P̂(s' s,a) 和/或奖励模型 R̂，用模型做规划（rollout、MPC、MCTS）选动作。 优势： 优势 说明 ------ ------ 样本效率 可在模型中仿真大量轨迹，减少真实交互 规划能力 MCTS（AlphaGo）、MPC 可深搜多步 可解释 模型可检视、调试 安全 仿真中试错，降低真实风险 劣势： 劣势 说明 ------ ------ 模型误差 错误模型导致错误规划（compounding error） 建模难度 高维连续、接触动力学难精确建模 计算开销 在线规划需实时 rollout 偏差 过度信任模型忽略真实反馈 代表：Dyna-Q、PETS、MuZero（学隐式模型）、世界模型 研究。混合方法：model-based 初始化 + model-free 微调。详见 RL 算法概览。

Question 2

Dyna-Q 如何结合 model-based 与 model-free？

Accepted Answer

真实交互更新 Q 的同时学习模型；额外从模型采样虚拟转移更新 Q，提高样本效率。模型越准收益越大，模型差则引入噪声。

Question 3

MPC 在机器人中如何应用？

Accepted Answer

每步用当前模型预测 H 步 horizon，优化动作序列，执行首步后重新规划（receding horizon）。对模型精度与实时性要求高。

Question 4

MuZero 的「隐式模型」指什么？

Accepted Answer

不直接预测下一观测，而在隐空间预测转移与价值/策略，结合 MCTS 规划。避免像素级建模难，在围棋、Atari 取得 SOTA。

基于模型的强化学习有哪些优缺点？

核心要点

简要回答

标准回答

常见误区

追问

延伸学习


优势	说明
样本效率	可在模型中仿真大量轨迹，减少真实交互
规划能力	MCTS（AlphaGo）、MPC 可深搜多步
可解释	模型可检视、调试
安全	仿真中试错，降低真实风险


劣势	说明
模型误差	错误模型导致错误规划（compounding error）
建模难度	高维连续、接触动力学难精确建模
计算开销	在线规划需实时 rollout
偏差	过度信任模型忽略真实反馈