开源项目3 天前·Google Blog + Ars Technica + MarkTechPost
Google DeepMind 发布 DiffusionGemma 26B:文本扩散技术实现 4 倍速度提升
Google DeepMind 发布 DiffusionGemma,一个基于 Gemma 4 26B-A4B 架构的实验性开源模型。该模型采用离散扩散(discrete diffusion)技术而非传统的自回归解码,可并行生成 256 个 token 块,在 NVIDIA H100 上实现超过 1100 tokens/秒的生成速度,比标准 Gemma 4 快 4 倍。模型采用 Apache 2.0 许可证开放。
AI Master 解读
核心事件
文本扩散技术首次以开源模型形式落地,挑战自回归解码的统治地位
行业影响
DiffusionGemma 代表了语言模型架构的重要实验。通过并行生成而非顺序生成,它展示了在速度关键场景(如实时编辑、快速迭代)的巨大潜力。虽然输出质量略低于标准 Gemma 4,但速度优势为特定应用场景开辟了新可能。
AI Master 建议
关注扩散语言模型在代码生成、结构化输出、实时交互场景的应用。虽然目前工具链和部署支持尚不成熟,但这项技术可能在 1-2 年内改变本地 AI 部署的格局。
DiffusionGemma:超越自回归
2026 年 6 月 10 日,Google DeepMind 发布 DiffusionGemma,这是首个采用文本扩散技术的开源语言模型。
技术架构
- 基础架构: Gemma 4 26B-A4B MoE(Mixture of Experts)
- 总参数: 25.2B,活跃参数 3.8B
- 生成方式: 离散扩散(discrete diffusion),并行生成 256-token 块
- 注意力机制: 双向注意力,每个 canvas token 可关注所有其他 token
- 上下文窗口: 256K tokens
- 多语言支持: 35+ 种语言
性能表现
- 生成速度: 在 NVIDIA H100 上达到 1100+ tokens/秒(FP8)
- 速度提升: 比标准自回归 Gemma 4 快 4 倍
- 自我纠错: 可通过 re-noise 步骤重置低置信度 token 并重新优化
适用场景
- 行内编辑(in-line editing)
- 快速迭代
- 生成非线性文本结构
- 代码相关任务
- 结构化输出
局限性
- 输出质量低于标准 Gemma 4(Google 推荐生产环境使用 Gemma 4)
- 工具链和部署支持尚不成熟
- 错误率较高
开源许可
采用 Apache 2.0 许可证,可在 Hugging Face 获取:google/diffusiongemma-26B-A4B-it
来源: Google Blog + Ars Technica + MarkTechPost
链接: https://blog.google/innovation-and-ai/technology/developers-tools/diffusion-gemma-faster-text-generation