大语言模型2026-06-04·NVIDIA

NVIDIA 发布 Nemotron 3 Ultra:550B 参数开源 MoE 模型,美国最强开放权重模型

NVIDIA 于 6 月 4 日发布 Nemotron 3 Ultra,550B 参数 MoE 架构(激活 55B),混合 Mamba-Transformer 设计,支持 100 万 Token 上下文。在 Artificial Analysis Intelligence Index 得分 48,超越所有美国开源模型,但仍落后于中国前沿。首次使用 NVFP4(4.75-bit)精度预训练。

AI Master 解读

核心事件

NVIDIA 发布迄今最强美国开源权重模型 Nemotron 3 Ultra,标志着开源模型进入「混合架构 + 超低精度训练」新纪元。

行业影响

技术突破: 550B 参数但仅激活 55B(MoE),混合 Mamba-Transformer 架构突破传统 Transformer 效率瓶颈。首次使用 NVFP4(4.75-bit)精度完成前沿规模预训练,证明极低精度也能产出世界级模型。

AI Master 建议

对开发者而言,Nemotron 3 系列完全开源(权重、数据集、训练方案),可在 Hugging Face 下载商用。关注其在 Agent 系统和长上下文推理场景的实际表现。

NVIDIA Nemotron 3 Ultra 发布

2026 年 6 月 4 日,NVIDIA 正式发布 Nemotron 3 Ultra,这是目前美国最强的开放权重 AI 模型。

核心参数

  • 总参数量: 550B(激活 55B)
  • 架构: 混合 Mamba-Transformer MoE
  • 上下文窗口: 100 万 Token
  • 训练精度: NVFP4(4.75-bit)
  • 训练数据: 53.8 TiB(14.8 万亿 Token)
  • 评分: Artificial Analysis Intelligence Index 48 分

技术亮点

  1. 混合架构: 结合 Mamba(状态空间模型)和 Transformer 优势,在长序列处理上效率远超纯 Transformer
  2. 超低精度训练: 首次以 4.75-bit 精度完成前沿规模预训练,大幅降低算力需求
  3. 多 Token 预测: 原生支持一次预测多个 Token,推理速度取决于预测准确率
  4. 完全开源: 权重、数据集、训练方案均以 NVIDIA Open License 发布

定位与用途

  • 优化用于复杂 Agent 工作流、长上下文推理、高风险分析任务
  • 适用于 AI Agent 系统、聊天机器人、RAG 系统
  • 支持 Hugging Face 下载,可 vLLM/SGLang/Ollama 部署

竞争格局

尽管是美国最强开源模型,Nemotron 3 Ultra 仍落后于中国前沿模型。中国开放权重模型在 OpenRouter 上调用量已连续五周超越美国。