核心要点

  • 能清晰对比是否显式学习环境模型

  • 各举 2~3 个代表算法

  • 理解样本效率 vs 渐近性能 trade-off

  • 知道实际系统常混合使用

简要回答

维度 Model-free Model-based
环境模型 不显式学习 P,R 学习 P̂,R̂ 或隐式动力学
决策方式 查 Q / 采样 π 模型内规划、rollout
样本效率 较低 较高
渐近性能 无模型偏差上限 受模型误差限制
代表 Q-Learning, DQN, PPO, SAC Dyna-Q, PETS, MuZero, AlphaZero

Model-free 直接从 (s,a,r,s') 更新 Q 或 ∇J(π),简单通用,适合模型难建但交互相对便宜的场景(Atari、LLM RLHF);

Model-based 适合交互昂贵(机器人、工业控制)、可仿真或物理模型近似好的场景

标准回答

维度 Model-free Model-based
环境模型 不显式学习 P,R 学习 P̂,R̂ 或隐式动力学
决策方式 查 Q / 采样 π 模型内规划、rollout
样本效率 较低 较高
渐近性能 无模型偏差上限 受模型误差限制
代表 Q-Learning, DQN, PPO, SAC Dyna-Q, PETS, MuZero, AlphaZero

Model-free 直接从 (s,a,r,s') 更新 Q 或 ∇J(π),简单通用,适合模型难建但交互相对便宜的场景(Atari、LLM RLHF)。

Model-based 适合交互昂贵(机器人、工业控制)、可仿真或物理模型近似好的场景。

实践趋势:MB-MF 混合——用模型生成合成数据预训练,model-free 在线微调;或 Dreamer 等在潜空间做 model-based 想象训练。

详见 强化学习入门RL 算法概览

常见误区

⚠️ 常见踩坑

绝对化「model-based 一定更好」;不把 compounding error 和 sim-to-real 作为核心风险提及。

追问

追问 1AlphaZero 算 model-based 吗?

算。它用已知的游戏规则作为完美环境模型,在 MCTS 中前向模拟落子序列做规划,再用神经网络评估局面与先验。区别在于模型由规则给定而非学习得来;MuZero 则进一步在隐空间学习动力学,无需已知规则。

追问 2何时选 model-free 更合适?

环境复杂难建模(高维视觉)、仿真器不可靠、或已有大量离线数据且 off-policy 方法可行时,model-free(DQN/SAC/PPO)更务实。

追问 3Sim-to-real gap 如何影响 model-based?

仿真模型与真实物理不一致,在仿真中优化的策略迁移失败。需域随机化、系统辨识、真实数据微调模型或混合真实交互。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。