吞吐量（Throughput）

每秒能出多少 token

亦作、亦称：Throughput

吞吐量（Throughput）是衡量大模型推理服务性能的核心指标，通常以「每秒生成的 token 数（tokens/s）」表示，反映系统在单位时间内能完成的实际工作量。它与延迟共同构成推理服务的两大核心权衡维度，直接影响运营成本与用户体验。

概述

吞吐量衡量的是整个推理系统的产出能力，而非单次请求的响应速度。

吞吐量与延迟之间存在内在张力，是推理服务调优的核心命题。

静态批处理：等凑满一批再统一推理，适合离线场景，但对在线请求延迟不友好，GPU 空闲比例高
连续批处理（Continuous Batching）：Orca（OSDI 2022）提出的迭代级调度策略，每个解码步动态加入或退出请求，大幅降低 GPU 空闲，是目前主流在线服务方案
批大小为 32 时，相比单请求，每 token 成本可降低约 85%，但 P99 延迟随之上升
面向实时交互场景需控制批大小以保证 TTFT；面向离线批量场景可尽量拉大批大小以最大化吞吐
Sarathi-Serve（2024）等工作进一步探索 prefill 与 decode 阶段的精细化调度以同时兼顾吞吐和延迟

推理吞吐受多重硬件与软件因素共同制约。

显存带宽（Memory Bandwidth）：自回归生成每步都需将权重和 KV Cache 从 HBM 搬运到计算单元，带宽往往比算力更早成为瓶颈（Memory Bound）
批大小（Batch Size）：更大的批可更好利用 GPU 矩阵乘并行性，直接拉升系统吞吐
KV Cache 管理：缓存注意力层的 Key/Value 向量避免重复计算；KV Cache 容量越大，可并发处理的上下文越多，吞吐越高
量化（Quantization）：INT8/INT4 量化减小权重尺寸，降低带宽压力，在相同显存下可承载更大批次从而提升吞吐
模型并行：张量并行、流水线并行将模型分布到多 GPU，打破单卡显存瓶颈，进一步扩展吞吐上限

工程界围绕提升推理吞吐形成了若干成熟技术路径。

PagedAttention（vLLM，SOSP 2023）：借鉴操作系统虚拟内存分页思想对 KV Cache 进行按页管理，消除显存碎片，使吞吐相比早期方案提升 2–4 倍
连续批处理：Orca（OSDI 2022）首次系统提出迭代级调度，后被 vLLM、SGLang 等广泛采用
投机解码（Speculative Decoding）：以小模型草稿 + 大模型并行验证的方式，在不损失精度的前提下提升有效吞吐
Flash Attention：通过分块计算和 IO 感知优化减少 HBM 读写次数，降低注意力计算的延迟并间接提升吞吐
量化推理：GPTQ、AWQ 等 PTQ 方案在精度损失可控范围内大幅压缩权重，提升单卡可承载的批大小

推理吞吐优化随大模型规模增长而持续演进。

2022：Orca（Yu et al., OSDI 2022）提出迭代级调度（continuous batching），将吞吐相比静态批处理提升数倍
2023：vLLM（Kwon et al., SOSP 2023）引入 PagedAttention，进一步将内存利用率和吞吐大幅提升，成为推理服务事实标准
2023–2024：Sarathi-Serve 等工作专注吞吐与延迟的精细权衡；SGLang 引入 RadixAttention 提升前缀复用效率
2024–2025：推理侧 MoE 稀疏激活与吞吐优化深度结合；多模态与长上下文场景对 KV Cache 管理提出更高要求
2025 至今：prefill/decode 解耦部署（disaggregated serving）成为超大规模集群提升吞吐的新方向

准确测量吞吐需要选择合适的负载模型，并避免常见陷阱。

日常交流中容易听到的简化说法，未必准确，但能帮助理解误解从何而来。

从知识库精选 2 篇文章，帮助深入理解该术语。