Draft Model（草稿模型）

草稿模型就是帮大模型打草稿、提建议，大模型再快速审核拍板——越对的建议越能省时间。

亦作、亦称：草稿模型 · Drafter · Small Speculator · 辅助模型 · 小模型草稿器

草稿模型是投机解码的核心组件，以极低的计算代价预测候选 token，让大模型并行验证多个位置，实现无损的推理加速。它是当前主流 LLM 推理加速方案中技术成熟度最高、部署落地最广泛的范式之一。

概述

草稿模型（Draft Model）是投机解码（Speculative Decoding）框架的两大角色之一，与目标模型（Target Model）共同构成「起草–验证」流水线。

角色定位：以低延迟自回归地生成 γ 个候选 token（称为 draft token 序列）
核心价值：将目标模型的串行生成转化为并行批量验证，突破自回归推理的串行瓶颈
无损保证：通过拒绝采样（rejection sampling）机制，最终输出分布等价于目标模型独立生成的分布
典型规模：草稿模型参数量通常为目标模型的 1/50–1/10（如 7B 目标对应 68M–1B 草稿）

工作原理

投机解码的每轮迭代分为「起草」和「验证」两个阶段。

起草阶段：草稿模型从当前上下文出发，自回归地依次生成 γ 个候选 token，记为 x̃₁, x̃₂, …, x̃_γ
验证阶段：目标模型对 γ+1 个位置（含原上下文末位）做单次并行前向传播，同时获取每个位置的 logit
接受/拒绝裁决：对每个草稿 token，以「目标模型概率 / 草稿模型概率」为接受率做随机采样；比率 ≥1 时必然接受
回退机制：首个被拒绝的位置起，从目标模型修正后的分布中重新采样，确保分布无偏
加速来源：若平均接受 β 个草稿 token，目标模型每 γ+1 步可生成 β+1 个 token，理论加速比 ≈ (β+1)/(γ+1)

类型与变体

草稿模型的构造方式已演化出多种技术路线。

独立小模型：最经典方案，使用同族系轻量模型（如 LLaMA-68M 辅助 LLaMA-70B），部署简单但需额外显存
Medusa 多头：在目标模型顶层添加多个轻量 FFN 解码头，无需外挂小模型，可一次预测多个位置
自投机解码（Self-Speculative）：通过跳过目标模型的中间层做草稿，无需任何额外参数
递归草稿（Recurrent Drafter）：引入 RNN 结构维护草稿上下文，提升长序列接受率
多草稿（Multi-Drafter）：并行运行多个草稿模型，从中选取最优候选树，进一步提升接受率

应用场景

草稿模型已在多类推理加速场景中规模化部署。

在线服务降延迟：对话类应用首 token 延迟（TTFT）与逐 token 延迟（TPOT）均可降低 30–50%
批量离线推理：结合连续批处理（Continuous Batching）提升 GPU 利用率和整体吞吐
边缘/异构部署：Dovetail 等方案将草稿模型部署于 CPU，目标模型留在 GPU，充分利用异构算力
代码生成：代码补全场景 token 重复度高，接受率显著高于通用对话，加速比可达 3× 以上
多语言推理：专用草稿模型可针对特定语言训练，提升多语言场景下的接受率

与相邻概念的区别

草稿模型常与以下概念混淆，需注意区分。

vs. 知识蒸馏：蒸馏是用大模型训练小模型以独立替代大模型；草稿模型并非替代目标模型，而是协同加速
vs. 量化/剪枝：量化/剪枝直接压缩目标模型；草稿模型不改变目标模型的权重与精度
vs. Prompt Caching：KV 缓存加速的是重复前缀的预填充阶段；草稿模型加速的是自回归解码阶段
vs. 并行解码（如 Jacobi）：Jacobi 解码无需小模型但收敛性难以保证；投机解码通过拒绝采样保证输出等价

局限与误区

草稿模型方案并非在所有场景下均有效，需注意以下局限。

分布错位导致加速失效：若草稿模型与目标模型输出分布差异大（如语言不匹配），接受率低，反而引入额外开销
显存占用增加：独立小模型方案需同时加载两套权重，对显存受限场景不友好
批大小受限：大批次推理时每个请求草稿不同，并行度难以充分利用，加速比下降
常见误解：误以为输出 token 来自草稿模型——实际上最终接受的 token 由目标模型的分布决定，质量不变
超参数敏感：草稿长度 γ 的选取影响加速比与接受率的平衡，需针对具体场景调优

发展脉络

草稿模型技术从理论提出到工程落地经历了快速迭代。

2023 年初：Leviathan 等（Google）与 Chen 等（DeepMind）同期独立提出投机解码，草稿模型概念正式确立
2023 年中：Medusa（2023.07）提出多头草稿，摆脱对独立小模型的依赖
2024 年初：Recurrent Drafter（2024.03）引入 RNN 草稿结构；BiTA（2024.01）提出双向微调提升接受率
2024 年中：多语言专用草稿模型、自投机解码等变体涌现，覆盖更多部署场景
2025 年起：草稿模型与扩散解码（DART 等）、MoE 架构结合，以及在 GRPO/RLHF 训练加速中的应用成为新前沿
2026 年：在线草稿学习（Online Draft Learning）结合推理时持续适应，进一步提升动态场景下的接受率

常见误解

日常交流中容易听到的简化说法，未必准确，但能帮助理解误解从何而来。

「草稿模型就是帮大模型打草稿、提建议，大模型再快速审核拍板——越对的建议越能省时间。」
「这就像实习生先写初稿，高级工程师只需批改，整体速度比高级工程师从头写快多了。」
「很多人以为草稿模型输出的 token 就是最终结果，其实不对——大模型还会拒绝不符合自身分布的 token，保证质量。」

相关术语

和本术语关联紧密的其他词条，便于串联理解。

延伸阅读

从知识库精选 3 篇文章，帮助深入理解该术语。

外部参考

维基百科：查看「Draft Model」词条

本页内容为本站原创撰写；维基百科链接仅作延伸参考。