Acceptance Rate(接受率)

接受率就是小模型猜对的概率——猜得越准,大模型验证时保留的 token 越多,推理就越快

亦作、亦称:接受率 · Draft Acceptance Rate · 推测解码接受率 · Token Acceptance Rate · TAR · α

接受率是投机解码的关键效率指标,决定了草稿模型生成的 token 被目标模型保留的比例。接受率越高,推理加速效果越好,是评估和优化投机解码系统的核心参数。

概述

接受率(Acceptance Rate)是投机解码框架的核心性能指标,直接决定推理加速的上限。

  • 接受率 α 定义为草稿 token 被目标模型接受的期望概率,取值范围 [0, 1]
  • α 越接近 1,意味着草稿模型与目标模型分布高度重合,加速效果越好
  • α = 0 时投机解码退化为普通自回归解码,无任何加速
  • 接受率是无损推理的保证:无论 α 高低,最终输出分布与目标模型完全一致
  • 实测中,高质量草稿模型在代码/数学任务上 α 可达 0.75 以上

工作原理

投机解码将 token 生成分为「草稿」和「验证」两阶段,接受率贯穿验证过程。

  • 草稿阶段:小型草稿模型(Draft Model)自回归生成 γ 个候选 token
  • 验证阶段目标模型(Target Model)对全部 γ 个 token 并行打分
  • 接受判断:对第 i 个草稿 token x_i,以概率 min(1, p_target(x_i) / p_draft(x_i)) 接受
  • 拒绝修正:若某 token 被拒绝,从修正分布 norm(max(0, p_target − p_draft)) 中重采样
  • 核心公式:α = Σ_x min(p_target(x), p_draft(x)) = 1 − ½‖p_target − p_draft‖₁

类型与衍生指标

实践中衍生出多种接受率相关指标,适用于不同评估场景。

  • Token Acceptance Rate(TAR):γ 步草稿的综合接受率,TAR(γ) = (1 − α^(γ+1)) / (1 − α)
  • 逐位接受率:分别统计第 1、2、…、γ 个草稿位置的接受概率,越靠后通常越低
  • 批量平均接受率:多请求并发时对各请求 α 取加权平均,衡量系统整体效率
  • 自适应 γ 策略:根据实时接受率动态调整预生成步数,防止低 α 时浪费草稿计算
  • 期望加速比:speedup ≈ (1 + γ·α) / (1 + γ·c),其中 c 为草稿模型相对开销

应用场景

接受率指导着投机解码在不同场景下的配置与优化策略。

  • 代码补全:分布集中,α 普遍较高(0.7–0.85),是投机解码最成熟的应用场景
  • 数学推理:固定格式输出使草稿模型易于对齐,接受率表现优异
  • 长文档续写:上下文强约束下接受率稳定,适合离线批量推理加速
  • 对话系统:开放域回复分布分散,接受率较低(0.4–0.6),需权衡收益
  • 在线服务(Online Speculative Decoding):通过持续更新草稿模型维持高接受率,适配动态分布偏移

局限与误区

接受率是重要指标,但也存在误用和局限。

  • 误区:α 高就一定快——草稿模型本身开销过大时,即使 α 很高,整体吞吐也可能不如普通解码
  • 误区:α 可独立于任务评估——接受率对 prompt 分布、温度参数、输出长度高度敏感,离线评估结果未必反映线上真实情况
  • 局限:批量场景复杂性——批量推理中不同请求的 α 差异大,统一的 γ 策略难以同时优化所有请求
  • 局限:分布漂移——长对话或 RLHF 微调后目标模型分布变化,草稿模型需同步更新否则 α 显著下降
  • 局限:无法捕捉序列级质量——α 是 token 级指标,不反映整体回复质量

发展脉络

接受率概念随投机解码技术的演进而逐步精细化。

  • 2023-02:DeepMind Chen et al. 在 arXiv:2302.01318 中首次系统定义修正接受概率及接受率公式,证明无损性
  • 2023-05:Google Leviathan et al. 的 「Fast Inference from Transformers via Speculative Decoding」在 ICML 2023 发表,进一步推广接受率分析框架
  • 2023-10:「Online Speculative Decoding」(arXiv:2310.07177)提出动态更新草稿模型以维持高接受率
  • 2024:Sequoia、EAGLE 等工作探索树状草稿结构,引入树接受率扩展原始指标
  • 2025–2026:LK Losses(arXiv:2602.23881)提出直接优化接受率的训练目标;SDSL(arXiv:2603.11053)建立接受率与吞吐量的扩展律(Scaling Law)

常见误解

日常交流中容易听到的简化说法,未必准确,但能帮助理解误解从何而来。

  • 「接受率就是小模型猜对的概率——猜得越准,大模型验证时保留的 token 越多,推理就越快」
  • 「接受率不是准确率,它衡量的是草稿 token 的分布与目标模型分布的重叠程度,而不是字面上猜没猜对」
  • 「接受率下降说明草稿模型和目标模型分布偏离了,这时候需要重新对齐或换更好的草稿模型」

相关术语

和本术语关联紧密的其他词条,便于串联理解。

延伸阅读

从知识库精选 3 篇文章,帮助深入理解该术语。

  1. 1

    LLM 推理优化 2026:从 Prefill-Decode 分离到投机解码的全栈技术指南

    2026 年,LLM 推理优化已经从单一的模型量化发展为涵盖架构设计、调度策略、内存管理、硬件协同的全栈工程。本文系统梳理 LLM 推理优化的完整技术图谱:Prefill-Decode 分离架构(PD Separation)、投机解码(Speculative Decoding)、PagedAttention v2、动态批处理、KV Cache 压缩、以及 vLLM/TensorRT-LLM/SGLang 三大推理引擎的深度对比与选型指南。

  2. 2

    LLM 推理加速实战:从 KV Cache 优化到推测解码

    系统梳理 LLM 推理加速的核心技术——KV Cache 管理、PagedAttention、推测解码、连续批处理,掌握生产环境推理优化的决策框架和工具链

  3. 3

    GLM-5.2 深度技术解析:智谱百万上下文旗舰模型的架构创新与工程实践

    2026 年 6 月 17 日,智谱发布并开源新一代旗舰大模型 GLM-5.2。该模型以 744B 总参数(40B 激活)的 MoE 架构,实现了稳定可用的 100 万 token 上下文窗口,在 SWE-bench Pro、FrontierSWE 等基准上逼近 Claude Opus 4.8,API 成本仅为 GPT-5.5 的六分之一。本文深度解析 GLM-5.2 的 IndexShare、KVShare、LayerSplit、HiSparse 四大核心架构创新,以及从 128K 到 1M 的工程实现路径。