芯片3 天前·NVIDIA

NVIDIA 发布 Nemotron 3 Ultra：550B 参数开源模型，推理速度超 300 token/秒

6 月 1 日，NVIDIA 在 Computex 2026 发布 Nemotron 3 Ultra，这是目前最大的美国开源权重模型。550B 总参数（55B 激活），采用混合 Mamba-Attention 架构，100 万 token 上下文窗口，推理速度超 300 token/秒。该模型在 Artificial Analysis Intelligence Index 上得分 48，领先于 Gemma 4 31B（39）和 gpt-oss-120b（33），但仍落后于中国的 Kimi K2.6（54）。

AI Master 解读

核心事件

NVIDIA 发布最强开源模型 Nemotron 3 Ultra。

行业影响

影响分析： 这是 NVIDIA 从芯片公司向全栈 AI 平台的战略延伸。55B 激活参数意味着可以在单张 Blackwell 芯片上运行，大幅降低推理成本。300+ token/秒的速度远超中国同类模型（50-100 token/秒），这对 Agent 工作流至关重要——Agent 需要长时间运行，速度决定成本。开源许可证（OpenMDW-1.1）包含权重、训练数据、配方，这是真正的「全开源」，对企业级部署极具吸引力。

AI Master 建议

Agent 开发者应关注 Nemotron 3 Ultra 的 1M 上下文和高速推理，这可能成为 Agent 基础设施的默认选择。

Nemotron 3 Ultra 技术详解

模型规格


参数	数据
总参数	550B
激活参数	55B（90% 稀疏度）
架构	混合 Mamba-Attention MoE
上下文窗口	100 万 token
推理速度	300+ token/秒
许可证	OpenMDW-1.1（全开源）

性能对比


模型	Intelligence Index	速度
Kimi K2.6	54	50-100 t/s
Nemotron 3 Ultra	48	300+ t/s
Gemma 4 31B	39	-
Nemotron 3 Super	36	-
gpt-oss-120b	33	50-100 t/s

战略意义

NVIDIA 从芯片商转向全栈 AI 平台
55B 激活参数 = 单芯片可运行
开源许可证包含训练数据和配方
Agent 工作流的理想选择（长上下文 + 高速）

📰 原始来源

https://artificialanalysis.ai/articles/nvidia-nemotron-3-ultra-launch-announced

← 上一篇

Anthropic 发布 Claude Fable 5：Mythos 级别模型首次公开，但 72 小时后被美国政府关闭

ChatGPT 市场份额跌破 50%：从 74.8% 降至 61.8%，Gemini 和 Claude 崛起

📰 更多动态

行业2026-06-24