💡

文章摘要

2026年6月1日,NVIDIA在GTC Taipei/COMPUTEX 2026上发布Cosmos 3——全球首个开源全模态物理AI世界模型。它基于突破性Mixture of Transformers架构,在一个统一框架中同时处理语言、图像、视频、音频和行动序列,可替代视觉语言模型、视频生成器、世界模拟器和世界行动模型。本文系统解读Cosmos 3的双塔架构、五大使用模式、Cosmos Coalition生态,及其对机器人、自动驾驶和具身智能的深远影响。

前置阅读收获

读完本文,你将理解:NVIDIA Cosmos 3的完整架构(双塔Mixture of Transformers + 推理Transformer与扩散生成器的组合)、五大使用模式(VLM推理、视频生成、世界模拟、闭环仿真、世界行动模型)、OpenMDW-1.1开源许可证的商业意义、Cosmos Coalition全球联盟的成员构成与目标,以及Cosmos 3如何统一VLM、视频生成器、世界模拟器和世界行动模型于一个框架。

2026年6月1日,NVIDIA CEO黄仁勋在GTC Taipei主题演讲中正式发布Cosmos 3——全球首个开源的全模态物理AI基础模型。该模型采用突破性Mixture of Transformers架构,将视觉推理、世界生成和行动预测融合于单一系统,可同时理解和生成文本、图像、视频、环境声音和机器人行动信号。权重已在Hugging Face开放,开发者无需GPU即可在build.nvidia.com上试用。

本文所有技术数据均来自NVIDIA官方技术报告(research.nvidia.com)、官方新闻稿(nvidianews.nvidia.com)、HPC Wire和Digital Applied等权威信源,经交叉验证。

💡 一句话理解

如果你对机器人、自动驾驶、世界模型或多模态AI感兴趣,本文将提供从理论到实践的完整知识体系。建议重点关注第二章「双塔架构」和第四章「五大使用模式」。

⚠️ 常见踩坑

Cosmos 3是物理AI领域的前沿模型,其行动预测能力在真实机器人部署中仍需大量适配工作。不要将技术报告中的实验室数据直接等同于生产环境的实际表现。

一、为什么需要全模态世界模型

要理解Cosmos 3的意义,首先要回顾世界模型在AI发展史上的地位。世界模型的核心思想是让AI系统学习物理世界的内部运作机制,从而能够预测未来状态、理解因果关系、规划行动序列。这与人类认知方式高度一致——人类之所以能安全地过马路,不是因为学习了所有可能的交通场景,而是因为我们大脑中有一个世界的内部模型,可以预测"如果我现在走出去,会发生什么"。

传统世界模型的局限性:

  • 视觉语言模型(VLM) 只能理解和描述图像,不能生成视频或预测行动
  • 视频生成模型 可以生成逼真视频,但不能理解物理规律或预测机器人行动
  • 世界模拟器 可以模拟环境变化,但不能处理语言指令或生成多模态输出
  • 世界行动模型(World-Action Model) 可以预测机器人行动,但不能生成视频或处理音频

这意味着,一个完整的物理AI系统需要串联多个独立模型——VLM理解场景 → 视频生成器预测未来 → 行动模型输出控制信号。每个模型之间的接口转换都会引入误差和延迟

Cosmos 3的突破:首次将上述四种能力统一于单一模型框架。它基于Mixture of Transformers(混合Transformer)架构,在一个系统中同时处理语言、图像、视频、音频和行动序列。这意味着:

  • 你可以用自然语言描述任务,模型直接输出视频模拟机器人行动序列
  • 模型理解物理规律(重力、碰撞、摩擦力),生成的内容符合物理约束
  • 所有模态在同一个高维向量空间中表示,消除了模型间转换的误差

来源:Cosmos 3官方技术报告(NVIDIA Research Lab,2026年6月1日发布)。

Cosmos Coalition(Cosmos联盟):NVIDIA同时宣布成立全球协作组织,成员包括Agile Robots、Black Forest Labs、Generalist、LTX、Runway和Skild AI世界模型构建者和物理AI领导者,共同推进开源世界模型的发展。

图表加载中…

💡 一句话理解

理解世界模型时,关键区分在于理解型模型(VLM,分析已有内容)和生成型模型(视频生成器、行动模型,创造新内容)。Cosmos 3的独特之处在于同时具备这两种能力。

⚠️ 常见踩坑

「全模态」不等于「所有模态都同样强」。Cosmos 3在视觉-语言-行动三联任务上表现最强,但纯音频处理和纯文本推理可能不如专用模型。选型时要根据具体任务需求评估。

二、双塔 Mixture of Transformers 架构深度解析

Cosmos 3的核心创新在于其双塔混合Transformer架构(Two-Tower Mixture-of-Transformers)。这与传统的单一Transformer架构有本质区别。

2.1 双塔设计

Cosmos 3将模型分为两个独立的Transformer

  • 推理塔(Reasoner Tower):自回归Transformer,负责理解和推理。它分析输入的多模态信号(语言、图像、视频、音频),提取语义理解、因果关系和物理规律。
  • 生成塔(Generator Tower):基于扩散的Transformer,负责生成。它根据推理塔的输出,生成视频、音频或行动序列。

这种设计的关键洞察是:理解和生成是两种不同的计算模式。理解需要自回归地构建对输入的深度表示,而生成需要探索性地创建新的内容。将它们分离为两个专用模块,比在单一Transformer中同时做两件事更高效。

2.2 Mixture of Transformers 机制

在双塔内部,Cosmos 3进一步采用Mixture of Transformers(混合Transformer)机制:不是所有输入都通过完整模型,而是根据输入模态和任务类型,动态路由到最合适的专家子网络

例如:

  • 输入纯文本 → 路由到语言专家
  • 输入视频帧 → 路由到视觉专家
  • 输入视频 + 行动序列 → 路由到世界行动专家

这种机制的优势在于计算效率——不需要为简单任务激活全部参数,也不需要为复杂任务只使用部分参数。

来源:NVIDIA技术报告明确指出"Cosmos 3基于突破性mixture-of-transformers架构,将推理transformer与专家生成transformer配对"。

2.3 统一表示空间

Cosmos 3将所有模态映射到同一个高维向量空间

  • 文本:经过语言编码器映射
  • 图像:经过视觉编码器映射
  • 视频:经过时空编码器映射(同时编码空间和时间维度)
  • 音频:经过声学编码器映射
  • 行动:经过运动学编码器映射(关节角度、速度、力矩)

这使得模型可以跨模态推理——例如,看到一张图片后预测未来几秒的视频,或者听到一个声音后判断对应的视觉场景。

物理准确性的来源:Cosmos 3在训练时使用了大量带物理标注的真实世界数据(机器人操作视频、自动驾驶传感器数据、工业场景录像),使其生成内容不仅"看起来真实",而且符合物理规律(重力、碰撞、摩擦力、动量守恒)。

图表加载中…

💡 一句话理解

Mixture of Transformers与Mixture of Experts(MoE)不同。MoE是在Transformer内部做专家路由,而Cosmos 3的MoT是在架构层面将推理和生成作为两个独立的Transformer塔,各自内部也可以有专家子网络。

⚠️ 常见踩坑

双塔架构的训练成本远高于单一塔。Cosmos 3需要同时优化自回归损失(推理塔)和扩散损失(生成塔),这需要大量的计算资源。如果你计划基于Cosmos 3做微调,建议至少准备多块A100/H100 GPU

三、五大使用模式

Cosmos 3的灵活性体现在它支持五种截然不同的使用模式,一个模型替代了以往需要多个模型才能完成的任务。

模式一:视觉语言模型(VLM)推理

最基础的模式。输入图像或视频帧 + 文本问题,输出文本答案。例如:

  • 输入机器人摄像头拍摄的图片,问"前方障碍物是什么?"
  • 输入自动驾驶车辆的传感器数据,问"当前路况是否需要减速?"

在这个模式下,Cosmos 3的表现与传统VLM(如CLIP、BLIP)相当,但优势在于它可以无缝切换到其他模式。

模式二:视频生成

输入文本描述 + 初始图像/视频帧,生成后续的视频序列。例如:

  • 输入"机械臂抓取红色方块",生成完整的抓取过程视频
  • 输入自动驾驶场景,生成未来5秒的道路模拟

关键区别:Cosmos 3生成的视频符合物理规律——物体不会穿模、重力方向正确、碰撞有反弹。这与纯视频生成模型(如Sora、Runway Gen-3)有本质区别,后者生成的视频可能"看起来真实"但物理上不可能。

模式三:世界模拟(World Simulation)

输入当前状态 + 行动序列,模拟环境如何演化。这是闭环仿真的核心能力:

  • 给定机器人当前关节角度和传感器读数
  • 输入一组行动指令("向前移动0.5米,然后旋转30度")
  • 输出模拟后的新状态

这对于在仿真中训练机器人至关重要——不需要在真实世界中试错,而是在世界模型中"想象"各种行动的结果。

模式四:闭环仿真(Closed-Loop Simulation)

模式三的升级版。模型不仅模拟环境演化,还自主决策行动

  • 给定任务目标("把方块放到红色区域内")
  • 模型自主规划行动序列
  • 每一步行动后,模型更新环境状态
  • 循环直到任务完成

这实质上是一个完整的AI Agent,在仿真环境中自主操作。

模式五:世界行动模型(World-Action Model)

输入当前感知(视频/图像),直接输出机器人的控制信号(关节角度、速度、力矩)。这是最接近实际部署的模式:

  • 摄像头看到目标物体 → 模型输出机械臂的关节运动指令
  • 自动驾驶传感器检测到行人 → 模型输出刹车/转向指令

五种模式的统一性:关键在于,这五种模式使用的是同一个模型的权重,只是输入输出的模态组合不同。不需要为每种模式单独训练或切换模型。

来源:Digital Applied技术指南和NVIDIA官方公告确认了五大使用模式。

💡 一句话理解

如果你刚开始使用Cosmos 3,建议从 模式一(VLM推理) 入手,验证模型在理解任务上的能力,然后逐步切换到模式二(视频生成)和模式五(行动模型),形成完整的开发流程。

⚠️ 常见踩坑

模式五(世界行动模型)直接输出机器人控制信号,如果在真实机器人上部署,必须经过严格的安全验证。模型生成的行动序列在仿真中可能完美,但在真实物理世界中可能导致碰撞或损坏。强烈建议先在闭环仿真(模式四)中充分验证。

四、硬件部署层级

NVIDIA为Cosmos 3定义了三个硬件部署层级,从云端到边缘全覆盖。

层级一:云端训练(DGX Cloud)

  • 平台:NVIDIA DGX Cloud
  • 用途:大规模训练和微调Cosmos 3
  • 配置:多节点DGX集群,每节点8×GPU
  • 适用场景:Cosmos Coalition成员、大型企业、研究机构

Cosmos Coalition成员可以使用Cosmos 3的训练工具链和DGX Cloud基础设施进行大规模训练。联盟成员可以贡献模型、研究和评估技术,共同推进世界模型的发展。

层级二:云端推理(NVIDIA API Cloud)

  • 平台:NVIDIA API Cloud / build.nvidia.com
  • 用途:API调用推理,无需本地GPU
  • 配置:按用量付费
  • 适用场景:快速原型开发、小规模测试

开发者可以在build.nvidia.com上直接试用Cosmos 3,无需任何本地GPU硬件。这大大降低了物理AI开发的门槛。

层级三:边缘部署(Jetson Thor)

  • 平台:NVIDIA Jetson Thor
  • 用途:机器人端侧推理
  • 部署:Cosmos 3的量化/蒸馏版本
  • 适用场景:自主移动机器人、工业机械臂、自动驾驶车辆

Jetson Thor是NVIDIA专为机器人设计的边缘计算平台,提供1 petaflop FP4算力128GB统一内存。经过量化后的Cosmos 3可以在Jetson Thor上运行,实现端侧物理AI推理——不需要云端连接即可完成感知、推理和行动。

量化技术:NVIDIA提供了Cosmos 3的量化版本,通过FP8/FP4精度降低和知识蒸馏,在保持大部分能力的同时显著减少计算需求。量化后的模型在Jetson Thor上可以达到实时推理延迟(< 100ms)。

来源:NVIDIA官方新闻稿确认三个硬件层级;Jetson Thor规格来自NVIDIA产品页面。

图表加载中…

💡 一句话理解

对于个人开发者和小型团队,从层级二(API Cloud)开始是最经济的选择。无需购买GPU,按用量付费即可验证Cosmos 3在你特定任务上的效果。确认价值后,再考虑购买Jetson Thor做端侧部署。

⚠️ 常见踩坑

层级三(Jetson Thor端侧部署)需要模型量化和蒸馏,这会损失部分能力。特别是视频生成质量和物理精度在量化后可能下降。在生产部署前,必须对量化模型进行充分的性能评估。

五、OpenMDW-1.1 开源许可证解读

Cosmos 3的权重在Hugging Face上以OpenMDW-1.1许可证开放。这个许可证的条款对物理AI生态有深远影响。

许可证核心条款

  • 允许商业使用:可以基于Cosmos 3开发商业产品
  • 允许修改和分发:可以微调、蒸馏、量化后重新分发
  • 贡献回馈要求:如果对Cosmos 3做出了显著改进,需要向社区公开
  • 安全限制:禁止将Cosmos 3用于军事武器系统等有害应用

与同类许可证对比

特性 OpenMDW-1.1 Apache 2.0 Llama 3 许可证
商业使用
修改分发
贡献回馈
月活7亿限制
安全限制

OpenMDW-1.1的独特之处在于贡献回馈要求——这确保了Cosmos生态的改进能够回流到社区,形成正向循环。这与Apache 2.0的"单向开放"不同,更接近GPL的精神,但又不像GPL那样强制所有衍生作品开源。

对物理AI生态的意义

Cosmos 3的开放意味着:

  1. 降低物理AI开发门槛:任何开发者都可以免费获得最前沿的世界模型
  2. 加速机器人技术迭代:不再需要从头训练世界模型,可以基于Cosmos 3快速微调
  3. 促进标准化:Cosmos 3可能成为物理AI领域的"基准模型",类似ImageNet预训练模型在CV领域的地位
  4. 推动Cosmos Coalition发展:开放模型吸引更多组织加入联盟,贡献数据和改进

来源:Hugging Face模型页面(huggingface.co/nvidia-cosmos-ea)确认OpenMDW-1.1许可证。

💡 一句话理解

如果你计划基于Cosmos 3开发商业产品,建议仔细阅读OpenMDW-1.1许可证的完整文本,特别是关于贡献回馈和安全限制的条款。如果不确定是否符合要求,请咨询法律顾问。

⚠️ 常见踩坑

OpenMDW-1.1的安全限制条款可能影响某些行业的应用(如国防、安防)。如果你的应用场景涉及这些领域,必须确认是否符合许可证的安全条款,否则可能面临法律风险。

六、Cosmos 3 与竞品的对比分析

在物理AI和世界模型领域,Cosmos 3并非唯一玩家。以下是与主要竞品的对比。

6.1 与 Google DeepMind Genie 3 对比

Google DeepMind 的 Genie 3 是另一个重要的世界模型。它可以从单张图片生成可交互的2D世界。

维度 NVIDIA Cosmos 3 Google Genie 3
模态覆盖 文本+图像+视频+音频+行动 图像→可交互2D
架构 双塔MoT 单一Transformer
开源 ✅ OpenMDW-1.1 ❌ 闭源
行动预测 ✅ 直接输出控制信号 ❌ 仅生成可交互环境
物理准确性 ✅ 训练含物理标注 ⚠️ 视觉真实但物理不一定
部署方式 云端+边缘 仅云端

Cosmos 3的优势在于全模态覆盖和行动预测能力——Genie 3只能生成可交互环境,不能直接输出机器人控制信号。

6.2 与 Meta JEPA 对比

Meta的 JEPA(Joint Embedding Predictive Architecture)从另一个角度切入:通过预测视频片段的嵌入表示来学习世界模型

维度 NVIDIA Cosmos 3 Meta JEPA
训练方式 监督+自监督混合 自监督
生成能力 ✅ 生成视频和行动 ❌ 仅嵌入预测
开源 ⚠️ 部分开源
物理AI定位 ✅ 专为物理AI设计 ⚠️ 通用世界模型

JEPA的优势在于自监督学习——不需要标注数据,可以从大量未标注视频中学习。但Cosmos 3的生成能力行动预测使其更适合实际的物理AI部署。

6.3 与 VLAVision-Language-Action)模型对比

以Google的RT-2和Figure AI的π0.5为代表的VLA模型,将视觉语言模型直接连接到机器人行动。

维度 NVIDIA Cosmos 3 RT-2 / π0.5
世界理解 ✅ 视频生成+模拟 ❌ 仅理解
行动预测
仿真能力 ✅ 闭环仿真
多模态 ✅ 5种模态 ⚠️ 视觉+语言

VLA模型的核心优势是端到端行动——从视觉直接到行动,中间不需要仿真。但Cosmos 3的仿真能力使其可以在真实部署前进行充分的虚拟验证,这在实际应用中可能更安全、更高效。

总结:Cosmos 3是目前最全面的物理AI世界模型——它不只在某一项能力上最强,而是首次将所有关键能力统一于单一框架。这是其最大的差异化优势。

💡 一句话理解

对比分析的核心结论是:如果你需要端到端行动(感知→行动),VLA模型(如π0.5)更直接;如果你需要在部署前进行仿真验证,Cosmos 3更合适;如果你需要全模态理解,Cosmos 3的覆盖最广。

⚠️ 常见踩坑

竞品对比数据基于公开信息和论文。各模型的具体性能可能因测试环境和配置不同而有差异。建议在自己的具体任务上进行实测,而非仅依赖基准测试数据。

七、实战:在本地使用 Cosmos 3

本节提供使用Cosmos 3的入门指南。

7.1 在线试用(无需GPU)

最简单的方式是通过NVIDIA API Cloud,使用 curl 命令即可调用:

代码示例见下方代码块 1。

7.2 本地部署(需要GPU)

如果你希望在本地运行Cosmos 3,可以使用 Hugging Face transformers 库加载模型:

代码示例见下方代码块 2。

7.3 硬件要求

部署方式 最低GPU 推荐GPU 显存需求
API调用
本地VLM推理 A100 40GB H100 80GB ≥40GB
本地视频生成 A100 80GB H100 80GB × 2 ≥80GB
端侧部署(Jetson) Jetson Thor Jetson Thor Ultra 统一内存

7.4 微调指南

如果你需要针对特定场景微调Cosmos 3,建议冻结推理塔(Reasoner Tower),只微调生成塔(Generator Tower),这样可以大幅减少训练显存需求。

bash
# 通过 NVIDIA API 调用 Cosmos 3 视频生成
curl -X POST https://api.nvidia.com/v1/cosmos/v3/generate \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "prompt": "机械臂抓取桌面上的红色方块",
    "mode": "video_generation",
    "num_frames": 24,
    "resolution": "720p"
  }'
python
from transformers import AutoModelForCausalLM, AutoProcessor
import torch

# 加载 Cosmos 3 模型
model_id = "nvidia/Cosmos-3-Omni"
processor = AutoProcessor.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    torch_dtype=torch.float16,
    device_map="auto"
)

# 输入:文本提示 + 初始图像
prompt = "预测接下来5秒的场景变化"
image = load_image("scene.jpg")

inputs = processor(
    text=prompt,
    images=image,
    return_tensors="pt"
).to(model.device)

# 生成视频
outputs = model.generate(
    **inputs,
    max_new_tokens=1024,
    mode="world_simulation"
)

# 解码输出
video = processor.decode_video(outputs)

💡 一句话理解

微调Cosmos 3时,先从单模态任务开始(如仅视频生成),确认微调流程正确后,再扩展到多模态联合微调。同时保存检查点频繁,避免训练中断导致进度丢失。

⚠️ 常见踩坑

Cosmos 3的完整模型权重非常大,下载和加载可能需要数小时大量显存。如果显存不足,可以尝试FP8量化版本或LoRA微调,而不是全参数微调

八、未来趋势与展望

Cosmos 3的发布标志着物理AI进入了一个全模态统一的新阶段。展望未来,以下几个方向值得关注。

8.1 世界模型成为物理AI的"预训练基座"

就像ImageNet预训练模型统一了计算机视觉、BERT统一了NLP一样,Cosmos 3可能成为物理AI领域的预训练基座。未来大多数机器人和自动驾驶系统,可能会基于Cosmos 3进行微调,而非从头训练。

8.2 仿真→真实的 Sim2Real 挑战

Cosmos 3生成的仿真内容虽然物理准确,但仿真与真实世界之间仍存在差距(Sim2Real Gap)。如何缩小这个差距,是未来研究的核心挑战之一。可能的方向包括:

  • 在线校准:在真实机器人运行过程中,持续校准世界模型
  • 域随机化:在仿真中引入随机噪声,使模型更鲁棒
  • 混合仿真:结合真实传感器数据和仿真预测

8.3 Cosmos Coalition 的生态演进

Cosmos Coalition目前已有6家核心成员(Agile Robots、Black Forest Labs、Generalist、LTX、Runway、Skild AI)。随着更多组织加入,我们可能看到:

  • 更多开源世界模型:成员贡献各自的专长模型
  • 统一评估基准:Cosmos 3可能成为物理AI的标准化测试平台
  • 跨模态数据集:联盟成员共享高质量的物理AI训练数据

8.4 与 RTX Spark 的协同

NVIDIA同时发布的RTX Spark消费级AI芯片(见chip-001.ts)与Cosmos 3形成协同:RTX Spark提供强大的本地算力(128GB统一内存 + 1 petaflop AI算力),可以运行量化版的Cosmos 3,实现消费级设备上的物理AI推理。这意味着未来的个人电脑可能内置一个"世界模型",可以预测和模拟各种场景。

时间线预测

  • 2026年下半年:Cosmos 3生态快速扩展,更多组织加入Cosmos Coalition
  • 2027年:基于Cosmos 3的商业机器人产品开始量产
  • 2028年:消费级设备内置轻量版世界模型成为可能
图表加载中…

💡 一句话理解

关注Cosmos Coalition的进展——新成员的加入和贡献是判断物理AI行业发展速度的重要指标。如果一个新的大型组织加入联盟,通常意味着该领域有重大商业机会。

⚠️ 常见踩坑

Cosmos 3是2026年6月刚发布的前沿模型,其长期稳定性和生态发展仍需时间验证。在基于它构建关键业务系统之前,建议保持观望,等待更多社区反馈和第三方评测。

九、扩展阅读与学习资源

官方资源

相关前置阅读

  • mm-009:NVIDIA PersonaPlex — 实时全双工语音AI的个性化人格控制
  • mm-010多模态学习 — 从单模态到全模态的演进路径
  • chip-001:NVIDIA RTX Spark — 消费级AI芯片架构
  • agent-035:自主学习AI — 世界模型强化学习中的应用
  • blog-189:贝佐斯380亿押注物理AI — 具身智能为何成为2026年最大赌注

延伸阅读

学习建议

如果你是初学者:先阅读本文的前四章(概念→架构→使用模式→硬件),了解Cosmos 3是什么、能做什么。

如果你是机器人开发者:重点关注第三章(五大使用模式)和第七章(实战部署),特别是模式五(世界行动模型)和Jetson Thor部署。

如果你是研究员:建议阅读NVIDIA技术报告全文(134页),重点关注Mixture of Transformers架构细节和训练方法。

💡 一句话理解

最好的学习方式是在build.nvidia.com上实际试用Cosmos 3——不需要GPU,通过API即可获得第一手体验。建议从视频生成模式开始,直观感受模型的物理推理能力。

⚠️ 常见踩坑

本文所有链接均为2026年6月发布时的URL。NVIDIA可能在未来更新页面地址,如果链接失效,建议在NVIDIA官方博客中搜索最新链接。