Draft Model(草稿模型)
草稿模型就是帮大模型打草稿、提建议,大模型再快速审核拍板——越对的建议越能省时间。
亦作、亦称:草稿模型 · Drafter · Small Speculator · 辅助模型 · 小模型草稿器
草稿模型是投机解码的核心组件,以极低的计算代价预测候选 token,让大模型并行验证多个位置,实现无损的推理加速。它是当前主流 LLM 推理加速方案中技术成熟度最高、部署落地最广泛的范式之一。
概述
草稿模型(Draft Model)是投机解码(Speculative Decoding)框架的两大角色之一,与目标模型(Target Model)共同构成「起草–验证」流水线。
- 角色定位:以低延迟自回归地生成 γ 个候选 token(称为 draft token 序列)
- 核心价值:将目标模型的串行生成转化为并行批量验证,突破自回归推理的串行瓶颈
- 无损保证:通过拒绝采样(rejection sampling)机制,最终输出分布等价于目标模型独立生成的分布
- 典型规模:草稿模型参数量通常为目标模型的 1/50–1/10(如 7B 目标对应 68M–1B 草稿)
工作原理
投机解码的每轮迭代分为「起草」和「验证」两个阶段。
- 起草阶段:草稿模型从当前上下文出发,自回归地依次生成 γ 个候选 token,记为 x̃₁, x̃₂, …, x̃_γ
- 验证阶段:目标模型对 γ+1 个位置(含原上下文末位)做单次并行前向传播,同时获取每个位置的 logit
- 接受/拒绝裁决:对每个草稿 token,以「目标模型概率 / 草稿模型概率」为接受率做随机采样;比率 ≥1 时必然接受
- 回退机制:首个被拒绝的位置起,从目标模型修正后的分布中重新采样,确保分布无偏
- 加速来源:若平均接受 β 个草稿 token,目标模型每 γ+1 步可生成 β+1 个 token,理论加速比 ≈ (β+1)/(γ+1)
类型与变体
草稿模型的构造方式已演化出多种技术路线。
- 独立小模型:最经典方案,使用同族系轻量模型(如 LLaMA-68M 辅助 LLaMA-70B),部署简单但需额外显存
- Medusa 多头:在目标模型顶层添加多个轻量 FFN 解码头,无需外挂小模型,可一次预测多个位置
- 自投机解码(Self-Speculative):通过跳过目标模型的中间层做草稿,无需任何额外参数
- 递归草稿(Recurrent Drafter):引入 RNN 结构维护草稿上下文,提升长序列接受率
- 多草稿(Multi-Drafter):并行运行多个草稿模型,从中选取最优候选树,进一步提升接受率
应用场景
草稿模型已在多类推理加速场景中规模化部署。
- 在线服务降延迟:对话类应用首 token 延迟(TTFT)与逐 token 延迟(TPOT)均可降低 30–50%
- 批量离线推理:结合连续批处理(Continuous Batching)提升 GPU 利用率和整体吞吐
- 边缘/异构部署:Dovetail 等方案将草稿模型部署于 CPU,目标模型留在 GPU,充分利用异构算力
- 代码生成:代码补全场景 token 重复度高,接受率显著高于通用对话,加速比可达 3× 以上
- 多语言推理:专用草稿模型可针对特定语言训练,提升多语言场景下的接受率
与相邻概念的区别
草稿模型常与以下概念混淆,需注意区分。
- vs. 知识蒸馏:蒸馏是用大模型训练小模型以独立替代大模型;草稿模型并非替代目标模型,而是协同加速
- vs. 量化/剪枝:量化/剪枝直接压缩目标模型;草稿模型不改变目标模型的权重与精度
- vs. Prompt Caching:KV 缓存加速的是重复前缀的预填充阶段;草稿模型加速的是自回归解码阶段
- vs. 并行解码(如 Jacobi):Jacobi 解码无需小模型但收敛性难以保证;投机解码通过拒绝采样保证输出等价
局限与误区
草稿模型方案并非在所有场景下均有效,需注意以下局限。
- 分布错位导致加速失效:若草稿模型与目标模型输出分布差异大(如语言不匹配),接受率低,反而引入额外开销
- 显存占用增加:独立小模型方案需同时加载两套权重,对显存受限场景不友好
- 批大小受限:大批次推理时每个请求草稿不同,并行度难以充分利用,加速比下降
- 常见误解:误以为输出 token 来自草稿模型——实际上最终接受的 token 由目标模型的分布决定,质量不变
- 超参数敏感:草稿长度 γ 的选取影响加速比与接受率的平衡,需针对具体场景调优
发展脉络
草稿模型技术从理论提出到工程落地经历了快速迭代。
- 2023 年初:Leviathan 等(Google)与 Chen 等(DeepMind)同期独立提出投机解码,草稿模型概念正式确立
- 2023 年中:Medusa(2023.07)提出多头草稿,摆脱对独立小模型的依赖
- 2024 年初:Recurrent Drafter(2024.03)引入 RNN 草稿结构;BiTA(2024.01)提出双向微调提升接受率
- 2024 年中:多语言专用草稿模型、自投机解码等变体涌现,覆盖更多部署场景
- 2025 年起:草稿模型与扩散解码(DART 等)、MoE 架构结合,以及在 GRPO/RLHF 训练加速中的应用成为新前沿
- 2026 年:在线草稿学习(Online Draft Learning)结合推理时持续适应,进一步提升动态场景下的接受率
常见误解
日常交流中容易听到的简化说法,未必准确,但能帮助理解误解从何而来。
- 「草稿模型就是帮大模型打草稿、提建议,大模型再快速审核拍板——越对的建议越能省时间。」
- 「这就像实习生先写初稿,高级工程师只需批改,整体速度比高级工程师从头写快多了。」
- 「很多人以为草稿模型输出的 token 就是最终结果,其实不对——大模型还会拒绝不符合自身分布的 token,保证质量。」
相关术语
和本术语关联紧密的其他词条,便于串联理解。
延伸阅读
从知识库精选 3 篇文章,帮助深入理解该术语。
- 1
LLM 推理加速(四):新范式从 Speculative Decoding 到 DFlash
2026 年 4 月,z-lab 开源的 DFlash(Block Diffusion for Flash Speculative Decoding)一周内突破 2,000 星,将推测解码技术推向了新的高度。从 2023 年的 SpecInfer 到 2024 年的 Medusa、Eagle,再到 2025 年的 Lookahead Decoding 和 2026 年的 DFlash,LLM 推理加速经历了从「验证单 Token」到「预测 Token 块」再到「扩散式生成」的范式跃迁。本文深度解析推测解码的完整技术演进路线,对比 5 种主流方法的原理与性能,提供完整的 Python 实现代码,并给出生产部署的实战指南。
- 2
LLM 推理加速技术全景(三):从推测解码到块扩散
2026 年 4 月,LLM 推理加速领域迎来密集突破:DFlash 提出块扩散推测解码、DDTree 构建草稿树实现单次验证多路径、SpecGuard 引入验证感知步骤级校验、Parcae 用循环架构减半参数量。本文系统梳理 LLM 推理加速的技术栈,从算法层到架构层,帮你建立完整的知识框架。
- 3
LLM 推理优化 2026:从 Prefill-Decode 分离到投机解码的全栈技术指南
2026 年,LLM 推理优化已经从单一的模型量化发展为涵盖架构设计、调度策略、内存管理、硬件协同的全栈工程。本文系统梳理 LLM 推理优化的完整技术图谱:Prefill-Decode 分离架构(PD Separation)、投机解码(Speculative Decoding)、PagedAttention v2、动态批处理、KV Cache 压缩、以及 vLLM/TensorRT-LLM/SGLang 三大推理引擎的深度对比与选型指南。
外部参考
维基百科:查看「Draft Model」词条本页内容为本站原创撰写;维基百科链接仅作延伸参考。