Draft Model(草稿模型)

草稿模型就是帮大模型打草稿、提建议,大模型再快速审核拍板——越对的建议越能省时间。

亦作、亦称:草稿模型 · Drafter · Small Speculator · 辅助模型 · 小模型草稿器

草稿模型是投机解码的核心组件,以极低的计算代价预测候选 token,让大模型并行验证多个位置,实现无损的推理加速。它是当前主流 LLM 推理加速方案中技术成熟度最高、部署落地最广泛的范式之一。

概述

草稿模型(Draft Model)是投机解码(Speculative Decoding)框架的两大角色之一,与目标模型(Target Model)共同构成「起草–验证」流水线。

  • 角色定位:以低延迟自回归地生成 γ 个候选 token(称为 draft token 序列)
  • 核心价值:将目标模型的串行生成转化为并行批量验证,突破自回归推理的串行瓶颈
  • 无损保证:通过拒绝采样(rejection sampling)机制,最终输出分布等价于目标模型独立生成的分布
  • 典型规模:草稿模型参数量通常为目标模型的 1/50–1/10(如 7B 目标对应 68M–1B 草稿)

工作原理

投机解码的每轮迭代分为「起草」和「验证」两个阶段。

  • 起草阶段:草稿模型从当前上下文出发,自回归地依次生成 γ 个候选 token,记为 x̃₁, x̃₂, …, x̃_γ
  • 验证阶段:目标模型对 γ+1 个位置(含原上下文末位)做单次并行前向传播,同时获取每个位置的 logit
  • 接受/拒绝裁决:对每个草稿 token,以「目标模型概率 / 草稿模型概率」为接受率做随机采样;比率 ≥1 时必然接受
  • 回退机制:首个被拒绝的位置起,从目标模型修正后的分布中重新采样,确保分布无偏
  • 加速来源:若平均接受 β 个草稿 token,目标模型每 γ+1 步可生成 β+1 个 token,理论加速比 ≈ (β+1)/(γ+1)

类型与变体

草稿模型的构造方式已演化出多种技术路线。

  • 独立小模型:最经典方案,使用同族系轻量模型(如 LLaMA-68M 辅助 LLaMA-70B),部署简单但需额外显存
  • Medusa 多头:在目标模型顶层添加多个轻量 FFN 解码头,无需外挂小模型,可一次预测多个位置
  • 自投机解码(Self-Speculative):通过跳过目标模型的中间层做草稿,无需任何额外参数
  • 递归草稿(Recurrent Drafter):引入 RNN 结构维护草稿上下文,提升长序列接受率
  • 多草稿(Multi-Drafter):并行运行多个草稿模型,从中选取最优候选树,进一步提升接受率

应用场景

草稿模型已在多类推理加速场景中规模化部署。

  • 在线服务降延迟:对话类应用首 token 延迟(TTFT)与逐 token 延迟(TPOT)均可降低 30–50%
  • 批量离线推理:结合连续批处理(Continuous Batching)提升 GPU 利用率和整体吞吐
  • 边缘/异构部署:Dovetail 等方案将草稿模型部署于 CPU,目标模型留在 GPU,充分利用异构算力
  • 代码生成:代码补全场景 token 重复度高,接受率显著高于通用对话,加速比可达 3× 以上
  • 多语言推理:专用草稿模型可针对特定语言训练,提升多语言场景下的接受率

与相邻概念的区别

草稿模型常与以下概念混淆,需注意区分。

  • vs. 知识蒸馏:蒸馏是用大模型训练小模型以独立替代大模型;草稿模型并非替代目标模型,而是协同加速
  • vs. 量化/剪枝:量化/剪枝直接压缩目标模型;草稿模型不改变目标模型的权重与精度
  • vs. Prompt Caching:KV 缓存加速的是重复前缀的预填充阶段;草稿模型加速的是自回归解码阶段
  • vs. 并行解码(如 Jacobi):Jacobi 解码无需小模型但收敛性难以保证;投机解码通过拒绝采样保证输出等价

局限与误区

草稿模型方案并非在所有场景下均有效,需注意以下局限。

  • 分布错位导致加速失效:若草稿模型与目标模型输出分布差异大(如语言不匹配),接受率低,反而引入额外开销
  • 显存占用增加:独立小模型方案需同时加载两套权重,对显存受限场景不友好
  • 批大小受限:大批次推理时每个请求草稿不同,并行度难以充分利用,加速比下降
  • 常见误解:误以为输出 token 来自草稿模型——实际上最终接受的 token 由目标模型的分布决定,质量不变
  • 超参数敏感:草稿长度 γ 的选取影响加速比与接受率的平衡,需针对具体场景调优

发展脉络

草稿模型技术从理论提出到工程落地经历了快速迭代。

  • 2023 年初:Leviathan 等(Google)与 Chen 等(DeepMind)同期独立提出投机解码,草稿模型概念正式确立
  • 2023 年中:Medusa(2023.07)提出多头草稿,摆脱对独立小模型的依赖
  • 2024 年初:Recurrent Drafter(2024.03)引入 RNN 草稿结构;BiTA(2024.01)提出双向微调提升接受率
  • 2024 年中:多语言专用草稿模型、自投机解码等变体涌现,覆盖更多部署场景
  • 2025 年起:草稿模型与扩散解码(DART 等)、MoE 架构结合,以及在 GRPO/RLHF 训练加速中的应用成为新前沿
  • 2026 年:在线草稿学习(Online Draft Learning)结合推理时持续适应,进一步提升动态场景下的接受率

常见误解

日常交流中容易听到的简化说法,未必准确,但能帮助理解误解从何而来。

  • 「草稿模型就是帮大模型打草稿、提建议,大模型再快速审核拍板——越对的建议越能省时间。」
  • 「这就像实习生先写初稿,高级工程师只需批改,整体速度比高级工程师从头写快多了。」
  • 「很多人以为草稿模型输出的 token 就是最终结果,其实不对——大模型还会拒绝不符合自身分布的 token,保证质量。」

相关术语

和本术语关联紧密的其他词条,便于串联理解。

延伸阅读

从知识库精选 3 篇文章,帮助深入理解该术语。

  1. 1

    LLM 推理加速(四):新范式从 Speculative Decoding 到 DFlash

    2026 年 4 月,z-lab 开源的 DFlash(Block Diffusion for Flash Speculative Decoding)一周内突破 2,000 星,将推测解码技术推向了新的高度。从 2023 年的 SpecInfer 到 2024 年的 Medusa、Eagle,再到 2025 年的 Lookahead Decoding 和 2026 年的 DFlash,LLM 推理加速经历了从「验证单 Token」到「预测 Token 块」再到「扩散式生成」的范式跃迁。本文深度解析推测解码的完整技术演进路线,对比 5 种主流方法的原理与性能,提供完整的 Python 实现代码,并给出生产部署的实战指南。

  2. 2

    LLM 推理加速技术全景(三):从推测解码到块扩散

    2026 年 4 月,LLM 推理加速领域迎来密集突破:DFlash 提出块扩散推测解码、DDTree 构建草稿树实现单次验证多路径、SpecGuard 引入验证感知步骤级校验、Parcae 用循环架构减半参数量。本文系统梳理 LLM 推理加速的技术栈,从算法层到架构层,帮你建立完整的知识框架。

  3. 3

    LLM 推理优化 2026:从 Prefill-Decode 分离到投机解码的全栈技术指南

    2026 年,LLM 推理优化已经从单一的模型量化发展为涵盖架构设计、调度策略、内存管理、硬件协同的全栈工程。本文系统梳理 LLM 推理优化的完整技术图谱:Prefill-Decode 分离架构(PD Separation)、投机解码(Speculative Decoding)、PagedAttention v2、动态批处理、KV Cache 压缩、以及 vLLM/TensorRT-LLM/SGLang 三大推理引擎的深度对比与选型指南。

外部参考

维基百科:查看「Draft Model」词条

本页内容为本站原创撰写;维基百科链接仅作延伸参考。