开源项目2026-06-10·Google DeepMind

Google 发布 DiffusionGemma：26B MoE 开源模型，并行生成 256 Token，速度提升 4 倍

6 月 10 日，Google DeepMind 发布 DiffusionGemma，首个开源的扩散文本生成模型。26B 总参数（激活 3.8B），使用双向注意力一次并行生成 256 个 Token，在专用 GPU 上实现比传统自回归模型快 4 倍的文本生成。Apache 2.0 协议开源，支持 NVIDIA NVFP4（4-bit）格式，Hugging Face 已上线。

AI Master 解读

核心事件

Google 打破「文本只能逐 Token 生成」的范式，用扩散模型实现并行文本生成，速度提升 4 倍。

行业影响

这不是自回归模型的终结，而是证明下一代 AI 系统可能使用多种方式生成文本。DiffusionGemma 在质量上仍落后于传统 Gemma 4（MMLU Pro 77.6% vs 82.6%），但在速度敏感场景（代码补全、交互式编辑、约束求解）具有独特优势。

AI Master 建议

关注本地部署场景——DiffusionGemma 在消费级 GPU 上的表现可能改变「速度 vs 质量」的权衡。适合代码补全、数独求解、氨基酸序列等并行约束任务。

DiffusionGemma：文本生成的「并行革命」

2026 年 6 月 10 日，Google DeepMind 发布 DiffusionGemma，开创性地将扩散模型应用于文本生成。

核心参数

总参数量: 26B（激活 3.8B）
架构: MoE + 双向注意力
生成方式: 一次并行生成 256 个 Token
速度: 比传统自回归模型快 4 倍
许可: Apache 2.0（完全开源）
平台: Hugging Face 已上线

技术突破

并行生成: 不再逐词生成，而是整块文本同时产出
自我修正: 生成过程中自检查并修订输出
NVFP4 支持: 原生支持 NVIDIA 4-bit 浮点格式，Blackwell GPU 上速度进一步提升
双向注意力: 每个 Token 可同时关注所有其他 Token

质量权衡


基准	DiffusionGemma	Gemma 4
MMLU Pro	77.6%	82.6%
AIME 2026	69.1%	88.3%
LiveCodeBench v6	69.1%	77.1%
GPQA Diamond	73.2%	82.3%

适用场景

✅ 代码补全和填充
✅ 交互式编辑（低延迟需求）
✅ 约束求解（如数独）
✅ 氨基酸序列生成
✅ 本地部署速度敏感场景
❌ 通用对话（质量仍逊于自回归模型）

行业意义

「打字机没有被淘汰。Google 只是证明了它不再是房间里唯一的机器。」

DiffusionGemma 不是自回归模型的终结者，而是证明了下一代 AI 系统可能使用多种方式生成文本。

📰 原始来源

https://letsdatascience.com/blog/google-diffusiongemma-writes-256-tokens-at-once

← 上一篇

Claude Fable 5 发布：Anthropic 推出新一代 Claude 模型

Stack Overflow 推出「AI Agent 版」：编码代理终于有了自己的问答社区

📰 更多动态

行业2026-06-17