连续批处理（Continuous Batching）为什么能提升 LLM 服务吞吐？

Question 1

Accepted Answer

静态批处理的问题 传统做法把若干请求凑成一批、一起前向直到全部生成结束。但不同请求生成长度差异很大：短的早就该结束，却必须陪着最长的那条一起跑完，期间它占的算力被浪费。批越大、长度越参差，GPU 空转越严重——这是请求级（request-level）调度的木桶效应。 连续批处理怎么做 它把调度粒度从「一整批请求」降到「一次迭代」（iteration-level）。每生成一步后立即检查：哪些序列已经产出结束符或达到上限，就把它们换出并返回结果；同时把队列里等待的新请求填进腾出的位置。于是批的成员每一步都在动态变化，GPU 几乎不空转。 收益与配套 结果是有效 token 吞吐大幅提升、排队延迟下降，且无需增加硬件。难点在于序列动态进出导致 KV-cache 长度参差、频繁分配释放。vLLM 用 PagedAttention 把 KV-cache 按页（block）管理，像操作系统虚拟内存一样按需分配，消除显存碎片，让换入换出高效无损。详见 LLM 部署实践。

Question 2

PagedAttention 在其中起什么作用？

Accepted Answer

把每条序列的 KV-cache 切成固定大小的 block 非连续存放，按需分配、用完即回收，像虚拟内存一样消除碎片，让序列随时进出而显存利用率接近满载，还支持前缀共享。

Question 3

它会增加单请求延迟吗？

Accepted Answer

通常不会显著增加，反而因排队等待缩短而降低端到端延迟。但极端高负载下，新请求频繁插入可能让单步略变慢，需用调度策略平衡吞吐与尾延迟。

Question 4

与 chunked prefill 如何配合？

Accepted Answer

把长 prompt 的 prefill 切块混入正在 decode 的迭代批中，避免长 prefill 独占 GPU 阻塞 decode，使连续批处理在混合负载下延迟更平滑。

连续批处理（Continuous Batching）为什么能提升 LLM 服务吞吐？

核心要点

标准回答

常见误区

追问

延伸学习