开源项目2026-06-10·Google DeepMind
Google 发布 DiffusionGemma:26B MoE 开源模型,并行生成 256 Token,速度提升 4 倍
6 月 10 日,Google DeepMind 发布 DiffusionGemma,首个开源的扩散文本生成模型。26B 总参数(激活 3.8B),使用双向注意力一次并行生成 256 个 Token,在专用 GPU 上实现比传统自回归模型快 4 倍的文本生成。Apache 2.0 协议开源,支持 NVIDIA NVFP4(4-bit)格式,Hugging Face 已上线。
AI Master 解读
核心事件
Google 打破「文本只能逐 Token 生成」的范式,用扩散模型实现并行文本生成,速度提升 4 倍。
行业影响
这不是自回归模型的终结,而是证明下一代 AI 系统可能使用多种方式生成文本。DiffusionGemma 在质量上仍落后于传统 Gemma 4(MMLU Pro 77.6% vs 82.6%),但在速度敏感场景(代码补全、交互式编辑、约束求解)具有独特优势。
AI Master 建议
关注本地部署场景——DiffusionGemma 在消费级 GPU 上的表现可能改变「速度 vs 质量」的权衡。适合代码补全、数独求解、氨基酸序列等并行约束任务。
DiffusionGemma:文本生成的「并行革命」
2026 年 6 月 10 日,Google DeepMind 发布 DiffusionGemma,开创性地将扩散模型应用于文本生成。
核心参数
- 总参数量: 26B(激活 3.8B)
- 架构: MoE + 双向注意力
- 生成方式: 一次并行生成 256 个 Token
- 速度: 比传统自回归模型快 4 倍
- 许可: Apache 2.0(完全开源)
- 平台: Hugging Face 已上线
技术突破
- 并行生成: 不再逐词生成,而是整块文本同时产出
- 自我修正: 生成过程中自检查并修订输出
- NVFP4 支持: 原生支持 NVIDIA 4-bit 浮点格式,Blackwell GPU 上速度进一步提升
- 双向注意力: 每个 Token 可同时关注所有其他 Token
质量权衡
| 基准 | DiffusionGemma | Gemma 4 |
|---|---|---|
| MMLU Pro | 77.6% | 82.6% |
| AIME 2026 | 69.1% | 88.3% |
| LiveCodeBench v6 | 69.1% | 77.1% |
| GPQA Diamond | 73.2% | 82.3% |
适用场景
- ✅ 代码补全和填充
- ✅ 交互式编辑(低延迟需求)
- ✅ 约束求解(如数独)
- ✅ 氨基酸序列生成
- ✅ 本地部署速度敏感场景
- ❌ 通用对话(质量仍逊于自回归模型)
行业意义
「打字机没有被淘汰。Google 只是证明了它不再是房间里唯一的机器。」
DiffusionGemma 不是自回归模型的终结者,而是证明了下一代 AI 系统可能使用多种方式生成文本。