投机解码（Speculative Decoding）是如何加速 LLM 推理的？

Question 1

Accepted Answer

为什么能加速 自回归 decode 每步只算一个 token，是访存受限的：把整套权重读进来却只产出一个 token，GPU 算力大量浪费。投机解码的思路是用这份「免费」的算力一次验证多个 token。 工作流程 1. 一个小而快的草稿模型自回归地连续生成 k 个候选 token。 2. 大模型对这 k 个 token 做一次并行前向，同时得到每个位置的真实概率。 3. 从左到右逐个验证：用 rejection sampling 决定接受或拒绝。被接受的 token 直接采纳；遇到第一个被拒的位置就截断，并从大模型的校正分布重采一个 token。 4. 重复。每轮大模型只做一次前向，却可能产出多个 token。 关键性质：无损 rejection sampling 的校正保证最终输出分布与大模型自己逐 token 解码完全相同，因此是精确加速、不牺牲质量。 加速比取决于接受率：草稿模型越能预测大模型的输出、接受率越高，平均每次前向产出的 token 越多。详见 LLM 推理加速（四）。

Question 2

草稿模型怎么选？

Accepted Answer

要在「快」和「与大模型分布接近」之间平衡：常用同系列的小模型、量化版，或 Medusa/EAGLE 这类在大模型上加轻量预测头的自投机方案，省去单独维护草稿模型。

Question 3

接受率低时为什么可能变慢？

Accepted Answer

每轮要付草稿生成 + 大模型验证两份成本。接受率低则多数草稿 token 被拒、白算，额外开销超过省下的前向，整体反而比直接解码慢。

Question 4

Medusa/EAGLE 与经典投机解码的区别？

Accepted Answer

它们是自投机：不另用一个独立草稿模型，而在大模型上加多个预测头并行猜后续 token，再由主干验证，省去双模型部署、提高接受率。

投机解码（Speculative Decoding）是如何加速 LLM 推理的？

核心要点

标准回答

常见误区

追问

延伸学习