核心要点

  • 能讲清定义:学习环境动态模型(给定状态/动作预测下一状态与奖励),即可微的「环境模拟器」

  • 能讲清价值:在学到的模型里「想象」rollout 做规划或训练策略,无需真机交互,提升样本效率

  • 能说出代表工作:Dreamer 系列在隐空间学动态、在想象中用 actor-critic 训练策略

  • 能说出风险:模型误差会被规划/训练放大(model exploitation),长程预测漂移

标准回答

世界模型是什么

世界模型是对环境动态的学习式建模:输入当前状态(或观测)与动作,预测下一个状态、奖励,乃至观测。它相当于一个可微、可查询的「内部模拟器」,让智能体不必每一步都与真实环境交互。

具身智能中的作用

  • 样本效率:真机交互昂贵,世界模型让策略在「想象」的 rollout 中训练或规划,大幅减少真实试错。
  • 规划:基于模型前向预测多步后果,选择回报最高的动作序列(model-based planning)。
  • 表征:Dreamer 等在隐空间(latent)学动态,把高维观测压成紧凑状态便于预测与控制。

主要风险

模型不准时,策略会钻模型空子(model exploitation),在真实环境失效;长程预测误差累积导致想象轨迹漂移。需限制 rollout 长度、量化模型不确定性、结合真实数据校正。

常见误区

⚠️ 常见踩坑

世界模型不等于「更准的仿真器」:它是从数据学来的、必然有误差。把它当真值长程展开规划会被误差放大,必须控制想象步长并对不确定性建模。

追问

追问 1Model-Based RL 相比 Model-Free 的取舍是什么?

Model-Based 用学到的动态做规划/想象训练,样本效率高、可前瞻,但受模型误差影响、实现复杂。Model-Free(如 PPO/SAC)直接从交互学策略,简单稳健、渐近性能好,但样本贵。具身场景因真机采样昂贵,常倾向 Model-Based 或两者结合。

追问 2世界模型和 VLA 有什么联系?

两者互补。VLA 是把视觉语言映射为动作的策略;世界模型预测动作后果。可用世界模型为 VLA 提供想象数据或在部署时做前瞻规划与安全校验;近来也有把视频生成式世界模型作为具身预训练基座的方向。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。