开源项目昨天·Google

Google开源DiffusionGemma,扩散模型文本生成速度提升4倍

Google DeepMind开源实验性模型DiffusionGemma,基于Gemma 4架构,采用26B总参数、3.8B激活参数的MoE架构,颠覆传统自回归生成范式。模型支持单次并行生成256个Token文本块,最高实现4倍生成提速,量化后仅需18GB显存即可本地部署。采用Apache 2.0协议,已兼容vLLM、Unsloth、MLX、llama.cpp等主流框架。

AI Master 解读

核心事件

Google首次开源扩散式语言模型,突破自回归生成桎梏。

行业影响

影响分析: 1)并行生成256 Token块,延迟大幅降低;2)18GB显存本地部署,个人显卡可用;3)原生支持文本/图像/长视频多模态输入;4)内置逻辑推演思考模式,全局自我纠错。

AI Master 建议

扩散模型补齐本地端AI部署短板,云端+本地全域模型生态成型。

DiffusionGemma技术解析

核心架构

维度 参数
总参数 26B
激活参数 3.8B
专家数 128
上下文 最高256K
生成块 256 Token/次
显存需求 18GB(量化后)

技术突破

  1. 扩散头: 并行生成,非逐字自回归
  2. 混合解码: 块内扩散+块间自回归
  3. 稀疏注意力: 滑动窗口+周期性全局层
  4. 多模态: 文本/图像/长视频统一建模

部署支持

  • vLLM(Red Hat集成)
  • Hugging Face Transformers
  • MLX(Apple Silicon优化)
  • llama.cpp
  • NVIDIA NIM
  • Google Model Garden

适用场景

  • 单用户本地运行
  • 低延迟Agent开发
  • 实时人机交互
  • 内联编辑/快速迭代