芯片3 天前·NVIDIA
NVIDIA 发布 Nemotron 3 Ultra:550B 参数开源模型,推理速度超 300 token/秒
6 月 1 日,NVIDIA 在 Computex 2026 发布 Nemotron 3 Ultra,这是目前最大的美国开源权重模型。550B 总参数(55B 激活),采用混合 Mamba-Attention 架构,100 万 token 上下文窗口,推理速度超 300 token/秒。该模型在 Artificial Analysis Intelligence Index 上得分 48,领先于 Gemma 4 31B(39)和 gpt-oss-120b(33),但仍落后于中国的 Kimi K2.6(54)。
AI Master 解读
核心事件
NVIDIA 发布最强开源模型 Nemotron 3 Ultra。
行业影响
影响分析: 这是 NVIDIA 从芯片公司向全栈 AI 平台的战略延伸。55B 激活参数意味着可以在单张 Blackwell 芯片上运行,大幅降低推理成本。300+ token/秒的速度远超中国同类模型(50-100 token/秒),这对 Agent 工作流至关重要——Agent 需要长时间运行,速度决定成本。开源许可证(OpenMDW-1.1)包含权重、训练数据、配方,这是真正的「全开源」,对企业级部署极具吸引力。
AI Master 建议
Agent 开发者应关注 Nemotron 3 Ultra 的 1M 上下文和高速推理,这可能成为 Agent 基础设施的默认选择。
Nemotron 3 Ultra 技术详解
模型规格
| 参数 | 数据 |
|---|---|
| 总参数 | 550B |
| 激活参数 | 55B(90% 稀疏度) |
| 架构 | 混合 Mamba-Attention MoE |
| 上下文窗口 | 100 万 token |
| 推理速度 | 300+ token/秒 |
| 许可证 | OpenMDW-1.1(全开源) |
性能对比
| 模型 | Intelligence Index | 速度 |
|---|---|---|
| Kimi K2.6 | 54 | 50-100 t/s |
| Nemotron 3 Ultra | 48 | 300+ t/s |
| Gemma 4 31B | 39 | - |
| Nemotron 3 Super | 36 | - |
| gpt-oss-120b | 33 | 50-100 t/s |
战略意义
- NVIDIA 从芯片商转向全栈 AI 平台
- 55B 激活参数 = 单芯片可运行
- 开源许可证包含训练数据和配方
- Agent 工作流的理想选择(长上下文 + 高速)