世界模型（World Model）在具身智能中起什么作用？

Question 1

Accepted Answer

世界模型是什么 世界模型是对环境动态的学习式建模：输入当前状态（或观测）与动作，预测下一个状态、奖励，乃至观测。它相当于一个可微、可查询的「内部模拟器」，让智能体不必每一步都与真实环境交互。 在具身智能中的作用 - 样本效率：真机交互昂贵，世界模型让策略在「想象」的 rollout 中训练或规划，大幅减少真实试错。 - 规划：基于模型前向预测多步后果，选择回报最高的动作序列（model-based planning）。 - 表征：Dreamer 等在隐空间（latent）学动态，把高维观测压成紧凑状态便于预测与控制。 主要风险 模型不准时，策略会钻模型空子（model exploitation），在真实环境失效；长程预测误差累积导致想象轨迹漂移。需限制 rollout 长度、量化模型不确定性、结合真实数据校正。

Question 2

Model-Based RL 相比 Model-Free 的取舍是什么？

Accepted Answer

Model-Based 用学到的动态做规划/想象训练，样本效率高、可前瞻，但受模型误差影响、实现复杂。Model-Free（如 PPO/SAC）直接从交互学策略，简单稳健、渐近性能好，但样本贵。具身场景因真机采样昂贵，常倾向 Model-Based 或两者结合。

Question 3

世界模型和 VLA 有什么联系？

Accepted Answer

两者互补。VLA 是把视觉语言映射为动作的策略；世界模型预测动作后果。可用世界模型为 VLA 提供想象数据或在部署时做前瞻规划与安全校验；近来也有把视频生成式世界模型作为具身预训练基座的方向。

世界模型（World Model）在具身智能中起什么作用？

核心要点

标准回答

常见误区

追问

延伸学习