大语言模型6 天前·World Labs Substack + 科学网 + 澎湃新闻

李飞飞与World Labs发布世界模型功能分类:渲染器、模拟器、规划器三大路线正在融合

AI科学家李飞飞6月4日在Substack发表长文,首次系统梳理世界模型的功能分类。她将世界模型分为三大功能:渲染器(生成逼真视觉)、模拟器(输出精确物理数据)和规划器(决定机器人下一步动作)。她指出模拟器是连接渲染和规划的枢纽,三种路线正从独立发展走向融合,终点是一个统一的世界基础模型。World Labs的Marble产品已在模拟器方向迈出第一步。

世界模型:从概念混乱到功能分类

2026年6月4日,李飞飞与World Labs团队发表长文。

三大功能分类

1. 渲染器

  • 任务:将信息转为像素,视觉上逼真
  • 代表:Google Genie 3、World Labs RTFM
  • 局限:只管看起来像,不管实际上对不对

2. 模拟器

  • 任务:输出精确物理数据(几何、材质、碰撞网格)
  • 代表:World Labs Marble、NVIDIA Omniverse
  • 潜力:潜在市场规模超万亿美元
  • 挑战:三维标注数据稀缺、仿真到现实的鸿沟

3. 规划器

  • 任务:给定观测和目标,决定下一步动作
  • 代表:视觉-语言-动作模型(VLA)
  • 现状:仅限受控实验室环境,距离真实部署仍有距离

融合趋势

  • 渲染器开始接收动作指令并实时反馈
  • 模拟器生成的世界更可控、可编辑
  • 规划器从应激反应转向主动决策
  • 终点:统一的世界基础模型

来源: Substack (World Labs) + 科学网 + 澎湃新闻
链接: https://www.worldlabs.ai/blog/taxonomy-of-world-models

AI Master 解读

核心事件

李飞飞首次系统提出世界模型的三大功能分类框架,为混乱的技术概念建立了清晰的分类标准。

行业影响

这篇长文的重要性在于:它不仅是学术梳理,更是指明了空间智能的演进路径。模拟器被视为三种能力的共享底层,这与NVIDIA Cosmos 3的统一架构思路形成呼应。对于关注机器人和自动驾驶的行业来说,理解渲染/模拟/规划的分工与融合,是评估不同技术路线价值的关键框架。

AI Master 建议

世界模型是继LLM之后AI的下一个十年主线。建议关注模拟器技术(如碰撞网格生成、物理仿真)的开源进展,这是连接数字世界与物理机器人的桥梁。