← 首页/AI 资讯

开源项目昨天·Google

Google开源DiffusionGemma,扩散模型文本生成速度提升4倍

Google DeepMind开源实验性模型DiffusionGemma,基于Gemma 4架构,采用26B总参数、3.8B激活参数的MoE架构,颠覆传统自回归生成范式。模型支持单次并行生成256个Token文本块,最高实现4倍生成提速,量化后仅需18GB显存即可本地部署。采用Apache 2.0协议,已兼容vLLM、Unsloth、MLX、llama.cpp等主流框架。

AI Master 解读

核心事件

Google首次开源扩散式语言模型,突破自回归生成桎梏。

行业影响

影响分析: 1)并行生成256 Token块,延迟大幅降低;2)18GB显存本地部署,个人显卡可用;3)原生支持文本/图像/长视频多模态输入;4)内置逻辑推演思考模式,全局自我纠错。

AI Master 建议

扩散模型补齐本地端AI部署短板,云端+本地全域模型生态成型。

DiffusionGemma技术解析

核心架构


维度	参数
总参数	26B
激活参数	3.8B
专家数	128
上下文	最高256K
生成块	256 Token/次
显存需求	18GB(量化后)

技术突破

扩散头: 并行生成,非逐字自回归
混合解码: 块内扩散+块间自回归
稀疏注意力: 滑动窗口+周期性全局层
多模态: 文本/图像/长视频统一建模

部署支持

vLLM(Red Hat集成)
Hugging Face Transformers
MLX(Apple Silicon优化)
llama.cpp
NVIDIA NIM
Google Model Garden

适用场景

单用户本地运行
低延迟Agent开发
实时人机交互
内联编辑/快速迭代

📰 原始来源

https://blog.google/innovation-and-ai/technology/developers-tools/diffusion-gemma-faster-text-generation

← 上一篇

特朗普签署AI行政令,建立前沿模型自愿安全评估框架

下一篇 →

OpenAI与Anthropic面临新现实:企业从Token最大化转向效率优先

📰 更多动态

行业2026-06-26

DeepSeek启动大规模招聘,计划所有部门规模扩大至少一倍

政策2026-06-26

特朗普签署AI行政令,建立前沿模型自愿安全评估框架

行业2026-06-26

OpenAI与Anthropic面临新现实:企业从Token最大化转向效率优先