标准回答
世界模型是什么
世界模型是对环境动态的学习式建模:输入当前状态(或观测)与动作,预测下一个状态、奖励,乃至观测。它相当于一个可微、可查询的「内部模拟器」,让智能体不必每一步都与真实环境交互。
在具身智能中的作用
- 样本效率:真机交互昂贵,世界模型让策略在「想象」的 rollout 中训练或规划,大幅减少真实试错。
- 规划:基于模型前向预测多步后果,选择回报最高的动作序列(model-based planning)。
- 表征:Dreamer 等在隐空间(latent)学动态,把高维观测压成紧凑状态便于预测与控制。
主要风险
模型不准时,策略会钻模型空子(model exploitation),在真实环境失效;长程预测误差累积导致想象轨迹漂移。需限制 rollout 长度、量化模型不确定性、结合真实数据校正。
常见误区
⚠️ 常见踩坑
世界模型不等于「更准的仿真器」:它是从数据学来的、必然有误差。把它当真值长程展开规划会被误差放大,必须控制想象步长并对不确定性建模。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。