Acceptance Rate（接受率）

接受率就是小模型猜对的概率——猜得越准，大模型验证时保留的 token 越多，推理就越快

亦作、亦称：接受率 · Draft Acceptance Rate · 推测解码接受率 · Token Acceptance Rate · TAR · α

接受率是投机解码的关键效率指标，决定了草稿模型生成的 token 被目标模型保留的比例。接受率越高，推理加速效果越好，是评估和优化投机解码系统的核心参数。

概述

接受率（Acceptance Rate）是投机解码框架的核心性能指标，直接决定推理加速的上限。

接受率 α 定义为草稿 token 被目标模型接受的期望概率，取值范围 [0, 1]
α 越接近 1，意味着草稿模型与目标模型分布高度重合，加速效果越好
α = 0 时投机解码退化为普通自回归解码，无任何加速
接受率是无损推理的保证：无论 α 高低，最终输出分布与目标模型完全一致
实测中，高质量草稿模型在代码/数学任务上 α 可达 0.75 以上

工作原理

投机解码将 token 生成分为「草稿」和「验证」两阶段，接受率贯穿验证过程。

草稿阶段：小型草稿模型（Draft Model）自回归生成 γ 个候选 token
验证阶段：目标模型（Target Model）对全部 γ 个 token 并行打分
接受判断：对第 i 个草稿 token x_i，以概率 min(1, p_target(x_i) / p_draft(x_i)) 接受
拒绝修正：若某 token 被拒绝，从修正分布 norm(max(0, p_target − p_draft)) 中重采样
核心公式：α = Σ_x min(p_target(x), p_draft(x)) = 1 − ½‖p_target − p_draft‖₁

类型与衍生指标

实践中衍生出多种接受率相关指标，适用于不同评估场景。

Token Acceptance Rate（TAR）：γ 步草稿的综合接受率，TAR(γ) = (1 − α^(γ+1)) / (1 − α)
逐位接受率：分别统计第 1、2、…、γ 个草稿位置的接受概率，越靠后通常越低
批量平均接受率：多请求并发时对各请求 α 取加权平均，衡量系统整体效率
自适应 γ 策略：根据实时接受率动态调整预生成步数，防止低 α 时浪费草稿计算
期望加速比：speedup ≈ (1 + γ·α) / (1 + γ·c)，其中 c 为草稿模型相对开销

应用场景

接受率指导着投机解码在不同场景下的配置与优化策略。

代码补全：分布集中，α 普遍较高（0.7–0.85），是投机解码最成熟的应用场景
数学推理：固定格式输出使草稿模型易于对齐，接受率表现优异
长文档续写：上下文强约束下接受率稳定，适合离线批量推理加速
对话系统：开放域回复分布分散，接受率较低（0.4–0.6），需权衡收益
在线服务（Online Speculative Decoding）：通过持续更新草稿模型维持高接受率，适配动态分布偏移

局限与误区

接受率是重要指标，但也存在误用和局限。

误区：α 高就一定快——草稿模型本身开销过大时，即使 α 很高，整体吞吐也可能不如普通解码
误区：α 可独立于任务评估——接受率对 prompt 分布、温度参数、输出长度高度敏感，离线评估结果未必反映线上真实情况
局限：批量场景复杂性——批量推理中不同请求的 α 差异大，统一的 γ 策略难以同时优化所有请求
局限：分布漂移——长对话或 RLHF 微调后目标模型分布变化，草稿模型需同步更新否则 α 显著下降
局限：无法捕捉序列级质量——α 是 token 级指标，不反映整体回复质量

发展脉络

接受率概念随投机解码技术的演进而逐步精细化。

2023-02：DeepMind Chen et al. 在 arXiv:2302.01318 中首次系统定义修正接受概率及接受率公式，证明无损性
2023-05：Google Leviathan et al. 的「Fast Inference from Transformers via Speculative Decoding」在 ICML 2023 发表，进一步推广接受率分析框架
2023-10：「Online Speculative Decoding」（arXiv:2310.07177）提出动态更新草稿模型以维持高接受率
2024：Sequoia、EAGLE 等工作探索树状草稿结构，引入树接受率扩展原始指标
2025–2026：LK Losses（arXiv:2602.23881）提出直接优化接受率的训练目标；SDSL（arXiv:2603.11053）建立接受率与吞吐量的扩展律（Scaling Law）

常见误解

日常交流中容易听到的简化说法，未必准确，但能帮助理解误解从何而来。

「接受率就是小模型猜对的概率——猜得越准，大模型验证时保留的 token 越多，推理就越快」
「接受率不是准确率，它衡量的是草稿 token 的分布与目标模型分布的重叠程度，而不是字面上猜没猜对」
「接受率下降说明草稿模型和目标模型分布偏离了，这时候需要重新对齐或换更好的草稿模型」

延伸阅读

从知识库精选 3 篇文章，帮助深入理解该术语。

Acceptance Rate（接受率）

概述

工作原理

类型与衍生指标

应用场景

局限与误区

发展脉络

常见误解

相关术语

延伸阅读

LLM 推理优化 2026：从 Prefill-Decode 分离到投机解码的全栈技术指南

LLM 推理加速实战：从 KV Cache 优化到推测解码

GLM-5.2 深度技术解析：智谱百万上下文旗舰模型的架构创新与工程实践

概述

工作原理

类型与衍生指标

应用场景

与相邻概念的区别

局限与误区

发展脉络

常见误解

相关术语

延伸阅读

LLM 推理优化 2026：从 Prefill-Decode 分离到投机解码的全栈技术指南

LLM 推理加速实战：从 KV Cache 优化到推测解码

GLM-5.2 深度技术解析：智谱百万上下文旗舰模型的架构创新与工程实践