开源项目3 天前·Google Blog + Ars Technica + MarkTechPost

Google DeepMind 发布 DiffusionGemma 26B:文本扩散技术实现 4 倍速度提升

Google DeepMind 发布 DiffusionGemma,一个基于 Gemma 4 26B-A4B 架构的实验性开源模型。该模型采用离散扩散(discrete diffusion)技术而非传统的自回归解码,可并行生成 256 个 token 块,在 NVIDIA H100 上实现超过 1100 tokens/秒的生成速度,比标准 Gemma 4 快 4 倍。模型采用 Apache 2.0 许可证开放。

AI Master 解读

核心事件

文本扩散技术首次以开源模型形式落地,挑战自回归解码的统治地位

行业影响

DiffusionGemma 代表了语言模型架构的重要实验。通过并行生成而非顺序生成,它展示了在速度关键场景(如实时编辑、快速迭代)的巨大潜力。虽然输出质量略低于标准 Gemma 4,但速度优势为特定应用场景开辟了新可能。

AI Master 建议

关注扩散语言模型在代码生成、结构化输出、实时交互场景的应用。虽然目前工具链和部署支持尚不成熟,但这项技术可能在 1-2 年内改变本地 AI 部署的格局。

DiffusionGemma:超越自回归

2026 年 6 月 10 日,Google DeepMind 发布 DiffusionGemma,这是首个采用文本扩散技术的开源语言模型。

技术架构

  • 基础架构: Gemma 4 26B-A4B MoE(Mixture of Experts)
  • 总参数: 25.2B,活跃参数 3.8B
  • 生成方式: 离散扩散(discrete diffusion),并行生成 256-token 块
  • 注意力机制: 双向注意力,每个 canvas token 可关注所有其他 token
  • 上下文窗口: 256K tokens
  • 多语言支持: 35+ 种语言

性能表现

  • 生成速度: 在 NVIDIA H100 上达到 1100+ tokens/秒(FP8)
  • 速度提升: 比标准自回归 Gemma 4 快 4 倍
  • 自我纠错: 可通过 re-noise 步骤重置低置信度 token 并重新优化

适用场景

  • 行内编辑(in-line editing)
  • 快速迭代
  • 生成非线性文本结构
  • 代码相关任务
  • 结构化输出

局限性

  • 输出质量低于标准 Gemma 4(Google 推荐生产环境使用 Gemma 4)
  • 工具链和部署支持尚不成熟
  • 错误率较高

开源许可

采用 Apache 2.0 许可证,可在 Hugging Face 获取:google/diffusiongemma-26B-A4B-it

来源: Google Blog + Ars Technica + MarkTechPost
链接: https://blog.google/innovation-and-ai/technology/developers-tools/diffusion-gemma-faster-text-generation