DFlash

块扩散推测解码

亦作、亦称：Block Diffusion Speculative Decoding · DFlash Speculative Decoding

Z Lab、Modal 和 SGLang 团队于 2026 年 6 月 15 日发布的下一代推测解码方案，核心创新是块扩散（Block Diffusion）和 KV 注入（KV Injection）：草稿模型不再逐 token 自回归生成，而是在单次前向传播中并行生成一整个 block（4/8/16 个 token），在 Qwen 3.5 397B-A17B 上实现 4.3x 基线吞吐，比 EAGLE-3 快 1.5x，已被 ICML 2026 接收。

块扩散：并行生成草稿

DFlash 的核心创新是块扩散（Block Diffusion）草稿机制。传统推测解码（包括 EAGLE-3）的草稿模型是自回归的——逐 token 生成，生成 K 个 token 需要 K 次前向传播。这限制了实际加速比，因为草稿生成本身成为瓶颈。

DFlash 的草稿模型是块扩散模型——在单次前向传播中并行生成一整个 block 的 token（通常 4/8/16 个）。块扩散模型的本质是：从随机噪声出发，通过多步去噪过程生成数据。

DFlash 将这个过程压缩到单次前向传播：草稿模型接收 target model 的上下文特征作为条件，一次性输出整个 block 的 token 分布。这种架构完美匹配 GPU 的并行计算能力——生成 16 个 token 和生成 1 个 token 的延迟几乎相同。

KV 注入：站在巨人的肩膀上

DFlash 的另一个关键创新是 KV 注入（KV Injection）。传统方案（如 EAGLE-3）将 target model 的特征仅作为输入传递给草稿模型的第一层，信号随着层数增加而稀释。

DFlash 的做法截然不同：将 target model 的隐藏特征直接注入草稿模型每一层的 Key/Value 投影，存储在 KV Cache 中。这意味着草稿模型的每一层都能直接访问 target model 的深层推理结果，而不是仅仅依赖第一层的输入信号。

效果：接受长度（acceptance length）随草稿模型深度线性扩展，而不是像 EAGLE-3 那样趋于饱和。KV 注入的另一个优势是复用现有的 KV Cache 基础设施——不需要额外的内存分配或数据传输机制。

生态与部署

DFlash 已被 ICML 2026 接收，并获得 SGLang、vLLM、Transformers 三大推理引擎的原生支持。

在 SGLang 中启用 DFlash：python -m sglang.launch_server --model-path Qwen/Qwen3-8B --speculative-algorithm DFLASH --speculative-draft-model-path z-lab/Qwen3-8B-DFlash-b16。

HuggingFace 上有 Z Lab 官方提供的预训练 DFlash 草稿模型，覆盖 Qwen3-8B、Qwen3-4B、Qwen3.6-27B、Llama-3.1、Gemma-4-31B 等主流模型。

2026 年 6 月，Modal Labs 推出 Spec V2（DFlash 的工程优化版本），通过重叠调度（overlap scheduling）消除主机端开销，在 Qwen3-Coder-30B-A3B 上实现 4.3x 基线吞吐。

社区也在 MLX（Apple Silicon）上实现了 DFlash，支持 M5 Pro 芯片上的本地推理。

常见误解

日常交流中容易听到的简化说法，未必准确，但能帮助理解误解从何而来。

「块扩散推测解码」
「并行生成草稿 token」

外部参考

维基百科：查看「DFlash」词条

本页内容为本站原创撰写；维基百科链接仅作延伸参考。

DFlash

块扩散推测解码

亦作、亦称：Block Diffusion Speculative Decoding · DFlash Speculative Decoding

块扩散：并行生成草稿

KV 注入：站在巨人的肩膀上

生态与部署

DFlash 已被 ICML 2026 接收，并获得 SGLang、vLLM、Transformers 三大推理引擎的原生支持。

在 SGLang 中启用 DFlash：python -m sglang.launch_server --model-path Qwen/Qwen3-8B --speculative-algorithm DFLASH --speculative-draft-model-path z-lab/Qwen3-8B-DFlash-b16。

HuggingFace 上有 Z Lab 官方提供的预训练 DFlash 草稿模型，覆盖 Qwen3-8B、Qwen3-4B、Qwen3.6-27B、Llama-3.1、Gemma-4-31B 等主流模型。

2026 年 6 月，Modal Labs 推出 Spec V2（DFlash 的工程优化版本），通过重叠调度（overlap scheduling）消除主机端开销，在 Qwen3-Coder-30B-A3B 上实现 4.3x 基线吞吐。

社区也在 MLX（Apple Silicon）上实现了 DFlash，支持 M5 Pro 芯片上的本地推理。

常见误解

日常交流中容易听到的简化说法，未必准确，但能帮助理解误解从何而来。

「块扩散推测解码」
「并行生成草稿 token」

外部参考

维基百科：查看「DFlash」词条

本页内容为本站原创撰写；维基百科链接仅作延伸参考。

DFlash

块扩散：并行生成草稿

KV 注入：站在巨人的肩膀上

生态与部署

常见误解

相关术语

外部参考

觉得内容有帮助？请站长喝杯咖啡 ☕

DFlash

块扩散：并行生成草稿

KV 注入：站在巨人的肩膀上

生态与部署

常见误解

相关术语

外部参考