基于模型与无模型强化学习有何区别？

Question 1

基于模型与无模型强化学习有何区别？

Accepted Answer

维度 Model-free Model-based ------ ------------ ------------- 环境模型 不显式学习 P,R 学习 P̂,R̂ 或隐式动力学 决策方式 查 Q / 采样 π 模型内规划、rollout 样本效率 较低 较高 渐近性能 无模型偏差上限 受模型误差限制 代表 Q-Learning, DQN, PPO, SAC Dyna-Q, PETS, MuZero, AlphaZero Model-free 直接从 (s,a,r,s') 更新 Q 或 ∇J(π)，简单通用，适合模型难建但交互相对便宜的场景（Atari、LLM RLHF）。 Model-based 适合交互昂贵（机器人、工业控制）、可仿真或物理模型近似好的场景。 实践趋势：MB-MF 混合——用模型生成合成数据预训练，model-free 在线微调；或 Dreamer 等在潜空间做 model-based 想象训练。 详见 强化学习入门 与 RL 算法概览。

Question 2

AlphaZero 算 model-based 吗？

Accepted Answer

算。它用已知的游戏规则作为完美环境模型，在 MCTS 中前向模拟落子序列做规划，再用神经网络评估局面与先验。区别在于模型由规则给定而非学习得来；MuZero 则进一步在隐空间学习动力学，无需已知规则。

Question 3

何时选 model-free 更合适？

Accepted Answer

环境复杂难建模（高维视觉）、仿真器不可靠、或已有大量离线数据且 off-policy 方法可行时，model-free（DQN/SAC/PPO）更务实。

Question 4

Sim-to-real  gap 如何影响 model-based？

Accepted Answer

仿真模型与真实物理不一致，在仿真中优化的策略迁移失败。需域随机化、系统辨识、真实数据微调模型或混合真实交互。

基于模型与无模型强化学习有何区别？

核心要点

简要回答

标准回答

常见误区

追问

延伸学习


维度	Model-free	Model-based
环境模型	不显式学习 P,R	学习 P̂,R̂ 或隐式动力学
决策方式	查 Q / 采样 π	模型内规划、rollout
样本效率	较低	较高
渐近性能	无模型偏差上限	受模型误差限制
代表	Q-Learning, DQN, PPO, SAC	Dyna-Q, PETS, MuZero, AlphaZero