芯片3 天前·NVIDIA

NVIDIA 发布 Nemotron 3 Ultra:550B 参数开源模型,推理速度超 300 token/秒

6 月 1 日,NVIDIA 在 Computex 2026 发布 Nemotron 3 Ultra,这是目前最大的美国开源权重模型。550B 总参数(55B 激活),采用混合 Mamba-Attention 架构,100 万 token 上下文窗口,推理速度超 300 token/秒。该模型在 Artificial Analysis Intelligence Index 上得分 48,领先于 Gemma 4 31B(39)和 gpt-oss-120b(33),但仍落后于中国的 Kimi K2.6(54)。

AI Master 解读

核心事件

NVIDIA 发布最强开源模型 Nemotron 3 Ultra。

行业影响

影响分析: 这是 NVIDIA 从芯片公司向全栈 AI 平台的战略延伸。55B 激活参数意味着可以在单张 Blackwell 芯片上运行,大幅降低推理成本。300+ token/秒的速度远超中国同类模型(50-100 token/秒),这对 Agent 工作流至关重要——Agent 需要长时间运行,速度决定成本。开源许可证(OpenMDW-1.1)包含权重、训练数据、配方,这是真正的「全开源」,对企业级部署极具吸引力。

AI Master 建议

Agent 开发者应关注 Nemotron 3 Ultra 的 1M 上下文和高速推理,这可能成为 Agent 基础设施的默认选择。

Nemotron 3 Ultra 技术详解

模型规格

参数 数据
总参数 550B
激活参数 55B(90% 稀疏度)
架构 混合 Mamba-Attention MoE
上下文窗口 100 万 token
推理速度 300+ token/秒
许可证 OpenMDW-1.1(全开源)

性能对比

模型 Intelligence Index 速度
Kimi K2.6 54 50-100 t/s
Nemotron 3 Ultra 48 300+ t/s
Gemma 4 31B 39 -
Nemotron 3 Super 36 -
gpt-oss-120b 33 50-100 t/s

战略意义

  • NVIDIA 从芯片商转向全栈 AI 平台
  • 55B 激活参数 = 单芯片可运行
  • 开源许可证包含训练数据和配方
  • Agent 工作流的理想选择(长上下文 + 高速)