大语言模型3 天前·Google

Google发布DiffusionGemma：基于扩散模型的文本生成，速度提升4倍

Google DeepMind发布DiffusionGemma，基于Gemma 4架构并整合扩散模型技术，将文本生成瓶颈从内存带宽转移到计算，在H100上可达1000+ tokens/秒，RTX 5090上可达700+ tokens/秒。专为交互式本地推理场景设计。

AI Master 解读

核心事件

行业影响

技术突破
将传统自回归逐词生成改为一次性生成256-token段落
从内存带宽瓶颈转向计算瓶颈，充分利用GPU
单H100可达1000+ tokens/秒，RTX 5090可达700+ tokens/秒
面向本地交互式场景：行内编辑、快速迭代、非线性文本生成

AI Master 建议

建立模型路由层，保留 2 周小流量对比评测后再切换生产流量。

2026 年 6 月 10 日，Google DeepMind 发布 DiffusionGemma。

来源: Google Blog
链接: https://blog.google/innovation-and-ai/technology/developers-tools/diffusion-gemma-faster-text-generation/

📰 原始来源

← 上一篇

OpenAI IPO推迟，Altman告知员工预期公开上市将在未来一年内

苹果官宣 AI 升级，国内【果链】企业抢抓机遇