EAGLE-3

7 倍加速的推测解码

亦作、亦称：Extrapolation Algorithm for Generation · EAGLE

UC Berkeley 于 2025 年 3 月提出的推测解码加速技术，核心创新是直接 Token 预测（Direct Token Prediction）和多层次特征融合（Multi-layer Feature Fusion），取代 EAGLE-1/2 的特征级预测，在 Llama-3-70B 上实现 7.2x 加速和 92.3% 接受率，仅 4% 额外显存开销；2026 年初已合并入 vLLM、SGLang、TensorRT-LLM 主线，成为生产环境标准配置。

核心创新：直接 Token 预测

EAGLE-3 的核心创新是直接 Token 预测（Direct Token Prediction）取代特征级预测。

EAGLE-1/2 的 draft model 预测的是 target model 的隐藏状态特征（hidden features），然后通过 LM Head 映射到 token 空间。

这种方式的问题在于：(1) 特征预测的误差会在映射到 token 空间时被放大；(2) 训练数据受限于特征存储成本。EAGLE-3 直接从 target model 的多层特征融合后预测 token，绕过特征预测步骤。

具体实现：从 target model 的多个 Transformer 层（低层、中层、高层）提取特征，通过拼接和线性投影融合，然后用轻量级自回归头（通常是 5 层 MLP）直接预测下一个 token。这种架构使训练数据规模可以扩展到数十亿 token，预测精度随数据量单调递增。

训练时测试机制

EAGLE-3 引入的另一个关键创新是「训练时测试」（Training-time Test）机制。在推理时，draft model 需要自回归地生成多个候选 token，每个 token 的生成依赖于前一个 token。

但训练时，我们只有 ground truth 序列，没有 draft model 自己的输出。这造成了训练-推理的不匹配（exposure bias）。EAGLE-3 的解决方案：在训练时模拟推理过程——让 draft model 基于自己的预测继续生成，而不是基于 ground truth。

具体实现：使用自定义的因果掩码（causal mask），在每个模拟位置限制 attention 只能看到之前的预测结果。这样 draft model 在训练时就学会处理自己的输出作为输入，显著提升推理时的稳定性和接受率。

生产部署与生态

2026 年初，EAGLE-3 已合并入 vLLM、SGLang、TensorRT-LLM 三大主流推理引擎的主线，成为生产环境的标准配置。

在 vLLM 中，启用 EAGLE-3 只需添加 --speculative-method eagle3 --speculative-draft-model-path <path> 参数。

HuggingFace 上有大量预训练的 EAGLE-3 draft model（如 z-lab/Qwen3-8B-DFlash-b16），覆盖 Llama-3、Qwen-3、Gemma-4 等主流模型家族。

2026 年 6 月，AWS 推出 P-EAGLE（Parallel EAGLE），通过并行生成 draft token 进一步消除自回归瓶颈，在 NVIDIA B200 上实现比 vanilla EAGLE-3 高 1.69x 的加速。

EAGLE-3 的成功证明了推测解码从学术研究走向生产部署的可行性，也为后续的 DFlash（块扩散草稿）等创新奠定了基础。

常见误解

日常交流中容易听到的简化说法，未必准确，但能帮助理解误解从何而来。

「7 倍加速的推测解码」
「直接预测 Token 的草稿模型」

外部参考

维基百科：查看「EAGLE-3」词条

本页内容为本站原创撰写；维基百科链接仅作延伸参考。

EAGLE-3

7 倍加速的推测解码

亦作、亦称：Extrapolation Algorithm for Generation · EAGLE

核心创新：直接 Token 预测

EAGLE-3 的核心创新是直接 Token 预测（Direct Token Prediction）取代特征级预测。

EAGLE-1/2 的 draft model 预测的是 target model 的隐藏状态特征（hidden features），然后通过 LM Head 映射到 token 空间。

训练时测试机制

生产部署与生态

2026 年初，EAGLE-3 已合并入 vLLM、SGLang、TensorRT-LLM 三大主流推理引擎的主线，成为生产环境的标准配置。

在 vLLM 中，启用 EAGLE-3 只需添加 --speculative-method eagle3 --speculative-draft-model-path <path> 参数。

HuggingFace 上有大量预训练的 EAGLE-3 draft model（如 z-lab/Qwen3-8B-DFlash-b16），覆盖 Llama-3、Qwen-3、Gemma-4 等主流模型家族。

2026 年 6 月，AWS 推出 P-EAGLE（Parallel EAGLE），通过并行生成 draft token 进一步消除自回归瓶颈，在 NVIDIA B200 上实现比 vanilla EAGLE-3 高 1.69x 的加速。

EAGLE-3 的成功证明了推测解码从学术研究走向生产部署的可行性，也为后续的 DFlash（块扩散草稿）等创新奠定了基础。

常见误解

日常交流中容易听到的简化说法，未必准确，但能帮助理解误解从何而来。

「7 倍加速的推测解码」
「直接预测 Token 的草稿模型」

外部参考

维基百科：查看「EAGLE-3」词条

本页内容为本站原创撰写；维基百科链接仅作延伸参考。

EAGLE-3

核心创新：直接 Token 预测

训练时测试机制

生产部署与生态

常见误解

相关术语

延伸阅读

LLM 推理加速实战：从 KV Cache 优化到推测解码

外部参考

觉得内容有帮助？请站长喝杯咖啡 ☕

EAGLE-3

核心创新：直接 Token 预测

训练时测试机制

生产部署与生态

常见误解

相关术语

延伸阅读

LLM 推理加速实战：从 KV Cache 优化到推测解码

外部参考