LLM 推理服务如何优化吞吐与延迟（vLLM / 批处理 / 量化）？

Question 1

Accepted Answer

先看瓶颈 LLM 推理分两阶段：prefill（处理 prompt，算力密集）和 decode（逐 token 生成，访存密集、受 KV Cache 与显存带宽限制）。优化要分别对症。 吞吐优化 - 连续批处理：传统静态批要等整批结束，长短请求互相拖累。vLLM 等做请求级动态调度，某请求解码完立刻让新请求补位，GPU 几乎不空转。 - PagedAttention：仿操作系统分页，把 KV Cache 切成固定块按需分配，消除内存碎片、支持相同前缀共享，并发能力成倍提升。 - 量化：INT8/FP8 权重激活量化、INT4（GPTQ/AWQ）权重量化，降显存占用与带宽压力。 延迟优化 - 投机解码：小草稿模型一次猜多个 token，大模型并行验证，接受则跳步，降低首字后延迟。 - 张量并行：把单层权重切到多卡，扩展可服务的模型规模。 - 其它：prefix caching 复用系统提示、PD 分离（prefill/decode 拆分部署）、chunked prefill。 参见 vLLM/TGI 部署实践 与推理服务架构。

Question 2

KV Cache 为什么是显存瓶颈，怎么省？

Accepted Answer

自回归生成需缓存每层每 token 的 K/V，显存随 batch×序列长度×层数线性增长，长上下文/高并发时极易爆显存。优化：PagedAttention 分页消碎片、GQA/MQA 减少 KV 头数、KV 量化（INT8/FP8）、前缀共享复用公共部分。

Question 3

投机解码为什么能加速，瓶颈在哪？

Accepted Answer

decode 受访存带宽限制、算力闲置。小草稿模型一次提议 k 个 token，大模型一次前向并行验证，接受的 token 免去逐个解码。加速取决于接受率：草稿与目标越接近、温度越低接受率越高；接受率低时额外开销反而拖慢。

Question 4

吞吐和延迟如何权衡？怎么定 SLO？

Accepted Answer

增大 batch 提吞吐但推高单请求延迟（排队+计算）。按场景定 SLO：在线对话重视 TTFT 与 token 间延迟，离线批处理重视总吞吐与成本。可用 PD 分离、动态 batch 上限、优先级队列分别满足不同 SLA。

LLM 推理服务如何优化吞吐与延迟（vLLM / 批处理 / 量化）？

核心要点

标准回答

常见误区

追问

延伸学习