如何设计一个 LLM 模型推理服务？

Question 1

如何设计一个 LLM 模型推理服务？

Accepted Answer

架构分层 - Load Balancer → API Gateway（鉴权、限流、配额） - Inference Worker（vLLM / TGI / SGLang） - 可选 Router 做多模型 / 多 LoRA 路由 关键优化 - Continuous Batching：动态合并到达的请求，避免静态 batch 的空等 - PagedAttention：分页管理 KV Cache，减少显存碎片、提升并发 - Prefix Caching：复用相同系统 prompt 的 KV，省去重复 prefill - 量化（AWQ / GPTQ）：降显存、提吞吐，需评估精度损失 SLA 指标 - TTFT：首 token 延迟，决定交互体感 - TPOT：每 token 生成时间，决定流式速度 - 吞吐量：tokens/s，决定单卡服务能力与成本 可靠性 - 请求排队 + 超时熔断，过载时拒绝而非雪崩 - 降级到小模型 / 缓存结果兜底 - 多副本负载均衡、多 AZ 部署

Question 2

Prefill-Decode 分离架构？

Accepted Answer

Prefill 节点批量大、算力型；Decode 节点重内存带宽与 KV Cache，可独立扩缩容。vLLM、TensorRT-LLM 等支持 PD 分离，按流量特征分别弹性，降低尾延迟与成本。

Question 3

如何做模型 A/B 测试？

Accepted Answer

流量随机分层到模型 A/B；定义主指标（准确率、转化率）与护栏（延迟、成本、投诉率）；样本量与实验周期做功效分析；注意辛普森悖论与新奇效应；灰度发布 + 可回滚。

如何设计一个 LLM 模型推理服务？

核心要点

简要回答

标准回答

常见误区

追问

延伸学习