开源项目2026-06-10·Google DeepMind

Google 发布 DiffusionGemma:26B MoE 开源模型,并行生成 256 Token,速度提升 4 倍

6 月 10 日,Google DeepMind 发布 DiffusionGemma,首个开源的扩散文本生成模型。26B 总参数(激活 3.8B),使用双向注意力一次并行生成 256 个 Token,在专用 GPU 上实现比传统自回归模型快 4 倍的文本生成。Apache 2.0 协议开源,支持 NVIDIA NVFP4(4-bit)格式,Hugging Face 已上线。

AI Master 解读

核心事件

Google 打破「文本只能逐 Token 生成」的范式,用扩散模型实现并行文本生成,速度提升 4 倍。

行业影响

这不是自回归模型的终结,而是证明下一代 AI 系统可能使用多种方式生成文本。DiffusionGemma 在质量上仍落后于传统 Gemma 4(MMLU Pro 77.6% vs 82.6%),但在速度敏感场景(代码补全、交互式编辑、约束求解)具有独特优势。

AI Master 建议

关注本地部署场景——DiffusionGemma 在消费级 GPU 上的表现可能改变「速度 vs 质量」的权衡。适合代码补全、数独求解、氨基酸序列等并行约束任务。

DiffusionGemma:文本生成的「并行革命」

2026 年 6 月 10 日,Google DeepMind 发布 DiffusionGemma,开创性地将扩散模型应用于文本生成。

核心参数

  • 总参数量: 26B(激活 3.8B)
  • 架构: MoE + 双向注意力
  • 生成方式: 一次并行生成 256 个 Token
  • 速度: 比传统自回归模型快 4 倍
  • 许可: Apache 2.0(完全开源)
  • 平台: Hugging Face 已上线

技术突破

  1. 并行生成: 不再逐词生成,而是整块文本同时产出
  2. 自我修正: 生成过程中自检查并修订输出
  3. NVFP4 支持: 原生支持 NVIDIA 4-bit 浮点格式,Blackwell GPU 上速度进一步提升
  4. 双向注意力: 每个 Token 可同时关注所有其他 Token

质量权衡

基准 DiffusionGemma Gemma 4
MMLU Pro 77.6% 82.6%
AIME 2026 69.1% 88.3%
LiveCodeBench v6 69.1% 77.1%
GPQA Diamond 73.2% 82.3%

适用场景

  • ✅ 代码补全和填充
  • ✅ 交互式编辑(低延迟需求)
  • ✅ 约束求解(如数独)
  • ✅ 氨基酸序列生成
  • ✅ 本地部署速度敏感场景
  • ❌ 通用对话(质量仍逊于自回归模型)

行业意义

「打字机没有被淘汰。Google 只是证明了它不再是房间里唯一的机器。」

DiffusionGemma 不是自回归模型的终结者,而是证明了下一代 AI 系统可能使用多种方式生成文本。