开源项目昨天·Google
Google开源DiffusionGemma,扩散模型文本生成速度提升4倍
Google DeepMind开源实验性模型DiffusionGemma,基于Gemma 4架构,采用26B总参数、3.8B激活参数的MoE架构,颠覆传统自回归生成范式。模型支持单次并行生成256个Token文本块,最高实现4倍生成提速,量化后仅需18GB显存即可本地部署。采用Apache 2.0协议,已兼容vLLM、Unsloth、MLX、llama.cpp等主流框架。
AI Master 解读
核心事件
Google首次开源扩散式语言模型,突破自回归生成桎梏。
行业影响
影响分析: 1)并行生成256 Token块,延迟大幅降低;2)18GB显存本地部署,个人显卡可用;3)原生支持文本/图像/长视频多模态输入;4)内置逻辑推演思考模式,全局自我纠错。
AI Master 建议
扩散模型补齐本地端AI部署短板,云端+本地全域模型生态成型。
DiffusionGemma技术解析
核心架构
| 维度 | 参数 |
|---|---|
| 总参数 | 26B |
| 激活参数 | 3.8B |
| 专家数 | 128 |
| 上下文 | 最高256K |
| 生成块 | 256 Token/次 |
| 显存需求 | 18GB(量化后) |
技术突破
- 扩散头: 并行生成,非逐字自回归
- 混合解码: 块内扩散+块间自回归
- 稀疏注意力: 滑动窗口+周期性全局层
- 多模态: 文本/图像/长视频统一建模
部署支持
- vLLM(Red Hat集成)
- Hugging Face Transformers
- MLX(Apple Silicon优化)
- llama.cpp
- NVIDIA NIM
- Google Model Garden
适用场景
- 单用户本地运行
- 低延迟Agent开发
- 实时人机交互
- 内联编辑/快速迭代