大语言模型3 天前·Google
Google发布DiffusionGemma:基于扩散模型的文本生成,速度提升4倍
Google DeepMind发布DiffusionGemma,基于Gemma 4架构并整合扩散模型技术,将文本生成瓶颈从内存带宽转移到计算,在H100上可达1000+ tokens/秒,RTX 5090上可达700+ tokens/秒。专为交互式本地推理场景设计。
AI Master 解读
核心事件
Google发布DiffusionGemma:基于扩散模型的文本生成,速度提升4倍
行业影响
技术突破
将传统自回归逐词生成改为一次性生成256-token段落
从内存带宽瓶颈转向计算瓶颈,充分利用GPU
单H100可达1000+ tokens/秒,RTX 5090可达700+ tokens/秒
面向本地交互式场景:行内编辑、快速迭代、非线性文本生成
AI Master 建议
建立模型路由层,保留 2 周小流量对比评测后再切换生产流量。
DiffusionGemma:文本生成的范式转变
2026 年 6 月 10 日,Google DeepMind 发布 DiffusionGemma。
技术原理
- 基于 Gemma 4 架构 + Gemini Diffusion 研究
- 传统语言模型像打字机逐词生成,DiffusionGemma 像印刷机一次性生成 256-token 段落
- 将推理瓶颈从内存带宽转移到计算,充分利用 GPU
性能数据
- 单 NVIDIA H100: 1000+ tokens/秒
- NVIDIA RTX 5090: 700+ tokens/秒
- 比自回归生成快 4 倍
适用场景
- 本地交互式推理
- 行内代码/文本编辑
- 快速迭代与非线性文本生成
- 自回归 Gemma 4 仍是高质量生产输出的标准
来源: Google Blog
链接: https://blog.google/innovation-and-ai/technology/developers-tools/diffusion-gemma-faster-text-generation/