核心要点
能清晰对比是否显式学习环境模型
各举 2~3 个代表算法
理解样本效率 vs 渐近性能 trade-off
知道实际系统常混合使用
简要回答
| 维度 | Model-free | Model-based |
|---|---|---|
| 环境模型 | 不显式学习 P,R | 学习 P̂,R̂ 或隐式动力学 |
| 决策方式 | 查 Q / 采样 π | 模型内规划、rollout |
| 样本效率 | 较低 | 较高 |
| 渐近性能 | 无模型偏差上限 | 受模型误差限制 |
| 代表 | Q-Learning, DQN, PPO, SAC | Dyna-Q, PETS, MuZero, AlphaZero |
Model-free 直接从 (s,a,r,s') 更新 Q 或 ∇J(π),简单通用,适合模型难建但交互相对便宜的场景(Atari、LLM RLHF);
Model-based 适合交互昂贵(机器人、工业控制)、可仿真或物理模型近似好的场景
标准回答
| 维度 | Model-free | Model-based |
|---|---|---|
| 环境模型 | 不显式学习 P,R | 学习 P̂,R̂ 或隐式动力学 |
| 决策方式 | 查 Q / 采样 π | 模型内规划、rollout |
| 样本效率 | 较低 | 较高 |
| 渐近性能 | 无模型偏差上限 | 受模型误差限制 |
| 代表 | Q-Learning, DQN, PPO, SAC | Dyna-Q, PETS, MuZero, AlphaZero |
Model-free 直接从 (s,a,r,s') 更新 Q 或 ∇J(π),简单通用,适合模型难建但交互相对便宜的场景(Atari、LLM RLHF)。
Model-based 适合交互昂贵(机器人、工业控制)、可仿真或物理模型近似好的场景。
实践趋势:MB-MF 混合——用模型生成合成数据预训练,model-free 在线微调;或 Dreamer 等在潜空间做 model-based 想象训练。
常见误区
⚠️ 常见踩坑
绝对化「model-based 一定更好」;不把 compounding error 和 sim-to-real 作为核心风险提及。
追问
追问 1:AlphaZero 算 model-based 吗?
算。它用已知的游戏规则作为完美环境模型,在 MCTS 中前向模拟落子序列做规划,再用神经网络评估局面与先验。区别在于模型由规则给定而非学习得来;MuZero 则进一步在隐空间学习动力学,无需已知规则。
追问 2:何时选 model-free 更合适?
环境复杂难建模(高维视觉)、仿真器不可靠、或已有大量离线数据且 off-policy 方法可行时,model-free(DQN/SAC/PPO)更务实。
追问 3:Sim-to-real gap 如何影响 model-based?
仿真模型与真实物理不一致,在仿真中优化的策略迁移失败。需域随机化、系统辨识、真实数据微调模型或混合真实交互。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。
📰 AI 资讯
🛠️ AI 工具
- Gymnasium
单代理强化学习环境 API 标准库(原 Gym 的继任者),提供丰富参考环境,适用于 RL 训练和研究