大语言模型3 天前·Google

Google发布DiffusionGemma:基于扩散模型的文本生成,速度提升4倍

Google DeepMind发布DiffusionGemma,基于Gemma 4架构并整合扩散模型技术,将文本生成瓶颈从内存带宽转移到计算,在H100上可达1000+ tokens/秒,RTX 5090上可达700+ tokens/秒。专为交互式本地推理场景设计。

AI Master 解读

核心事件

Google发布DiffusionGemma:基于扩散模型的文本生成,速度提升4倍

行业影响

技术突破
将传统自回归逐词生成改为一次性生成256-token段落
从内存带宽瓶颈转向计算瓶颈,充分利用GPU
单H100可达1000+ tokens/秒,RTX 5090可达700+ tokens/秒
面向本地交互式场景:行内编辑、快速迭代、非线性文本生成

AI Master 建议

建立模型路由层,保留 2 周小流量对比评测后再切换生产流量。

DiffusionGemma:文本生成的范式转变

2026 年 6 月 10 日,Google DeepMind 发布 DiffusionGemma。

技术原理

  • 基于 Gemma 4 架构 + Gemini Diffusion 研究
  • 传统语言模型像打字机逐词生成,DiffusionGemma 像印刷机一次性生成 256-token 段落
  • 将推理瓶颈从内存带宽转移到计算,充分利用 GPU

性能数据

  • 单 NVIDIA H100: 1000+ tokens/秒
  • NVIDIA RTX 5090: 700+ tokens/秒
  • 比自回归生成快 4 倍

适用场景

  • 本地交互式推理
  • 行内代码/文本编辑
  • 快速迭代与非线性文本生成
  • 自回归 Gemma 4 仍是高质量生产输出的标准

来源: Google Blog
链接: https://blog.google/innovation-and-ai/technology/developers-tools/diffusion-gemma-faster-text-generation/