开源项目3 天前·Google Blog + Ars Technica + MarkTechPost

Google DeepMind 发布 DiffusionGemma 26B：文本扩散技术实现 4 倍速度提升

Google DeepMind 发布 DiffusionGemma，一个基于 Gemma 4 26B-A4B 架构的实验性开源模型。该模型采用离散扩散（discrete diffusion）技术而非传统的自回归解码，可并行生成 256 个 token 块，在 NVIDIA H100 上实现超过 1100 tokens/秒的生成速度，比标准 Gemma 4 快 4 倍。模型采用 Apache 2.0 许可证开放。

AI Master 解读

核心事件

文本扩散技术首次以开源模型形式落地，挑战自回归解码的统治地位

行业影响

DiffusionGemma 代表了语言模型架构的重要实验。通过并行生成而非顺序生成，它展示了在速度关键场景（如实时编辑、快速迭代）的巨大潜力。虽然输出质量略低于标准 Gemma 4，但速度优势为特定应用场景开辟了新可能。

AI Master 建议

关注扩散语言模型在代码生成、结构化输出、实时交互场景的应用。虽然目前工具链和部署支持尚不成熟，但这项技术可能在 1-2 年内改变本地 AI 部署的格局。

DiffusionGemma：超越自回归

2026 年 6 月 10 日，Google DeepMind 发布 DiffusionGemma，这是首个采用文本扩散技术的开源语言模型。

技术架构

基础架构: Gemma 4 26B-A4B MoE（Mixture of Experts）
总参数: 25.2B，活跃参数 3.8B
生成方式: 离散扩散（discrete diffusion），并行生成 256-token 块
注意力机制: 双向注意力，每个 canvas token 可关注所有其他 token
上下文窗口: 256K tokens
多语言支持: 35+ 种语言

性能表现

生成速度: 在 NVIDIA H100 上达到 1100+ tokens/秒（FP8）
速度提升: 比标准自回归 Gemma 4 快 4 倍
自我纠错: 可通过 re-noise 步骤重置低置信度 token 并重新优化

适用场景

行内编辑（in-line editing）
快速迭代
生成非线性文本结构
代码相关任务
结构化输出

局限性

输出质量低于标准 Gemma 4（Google 推荐生产环境使用 Gemma 4）
工具链和部署支持尚不成熟
错误率较高

开源许可

采用 Apache 2.0 许可证，可在 Hugging Face 获取：google/diffusiongemma-26B-A4B-it

来源: Google Blog + Ars Technica + MarkTechPost
链接: https://blog.google/innovation-and-ai/technology/developers-tools/diffusion-gemma-faster-text-generation

📰 原始来源

https://blog.google/innovation-and-ai/technology/developers-tools/diffusion-gemma-faster-text-generation

← 上一篇

Glean Work AI Index 2026：AI 每周为知识工作者节省 11 小时，但「看管机器」正在吞噬收益

Google将保存用户Lens照片和搜索录音用于AI训练，引发隐私担忧

📰 更多动态

政策2026-06-13