LLM 推理的 Prefill 与 Decode 两阶段有什么区别？

Question 1

Accepted Answer

Prefill（预填充） 把整个输入 prompt 一次性喂入模型并行前向，所有 token 同时计算注意力。这是一个大矩阵乘为主的过程，算术强度高，能把 GPU 算力打满，属于计算受限。它产出第一个输出 token，并把 prompt 全部 token 的 K、V 写入 KV-cache。Prefill 的耗时主导首 token 延迟（TTFT），随 prompt 长度增长。 Decode（解码） 之后逐个生成 token：每步只处理一个新 token，但要读取全部历史 token 的 KV-cache 做注意力。每步搬动整套权重和不断变大的 KV-cache，却只产出一个 token，算术强度极低，属于访存受限。Decode 的每步耗时主导吐字速度（TPOT），并随已生成长度缓慢上升。 两者的联系与影响 KV-cache 是连接两阶段的桥梁：Prefill 算好缓存，Decode 反复复用并追加。因为瓶颈不同，工程上常做 PD 分离（prefill/decode 分到不同实例），分别优化算力与带宽，并用 chunked prefill、continuous batching 平衡 TTFT 与吞吐。详见 LLM 推理优化 2026。

Question 2

为什么要做 Prefill/Decode 分离部署？

Accepted Answer

两阶段瓶颈相反、相互干扰：长 prefill 会阻塞 decode 造成卡顿。分到不同实例后可各自用合适的并行策略与批大小，独立扩缩容，兼顾 TTFT 与 TPOT。

Question 3

chunked prefill 解决什么问题？

Accepted Answer

把长 prompt 的 prefill 切成小块，与正在进行的 decode 混排进同一批，避免一次长 prefill 长时间霸占 GPU、拖垮其他请求的吐字延迟，使延迟更平滑。

Question 4

为什么 Decode 阶段增大 batch 能提吞吐却几乎不增延迟？

Accepted Answer

Decode 访存受限，单请求时算力闲置。多请求共享同一次权重读取，把算力填满，总吞吐随 batch 上升，而单步延迟在带宽未饱和前变化很小。

LLM 推理的 Prefill 与 Decode 两阶段有什么区别？

核心要点

标准回答

常见误区

追问

延伸学习