核心要点

  • 吞吐与延迟是核心权衡:增大 batch 提吞吐但抬高 TTFT,要按 SLA 取平衡

  • Continuous Batching + PagedAttentionLLM serving 提效关键,远胜静态 batch

  • Prefix Caching 复用系统 prompt 的 KV,量化(AWQ/GPTQ)降显存,二者显著降本

  • 监控要盯 TTFT、TPOT、tokens/s 与 GPU 利用率,并备好超时熔断与小模型降级

简要回答

API 网关鉴权限流 → 请求队列 → vLLM 连续批处理推理 → 流式 SSE 返回;监控 TTFT、TPOT、GPU 利用率;多副本负载均衡。

标准回答

架构分层

  • Load Balancer → API Gateway(鉴权、限流、配额)
  • Inference Worker(vLLM / TGI / SGLang
  • 可选 Router 做多模型 / 多 LoRA 路由

关键优化

  • Continuous Batching:动态合并到达的请求,避免静态 batch 的空等
  • PagedAttention:分页管理 KV Cache,减少显存碎片、提升并发
  • Prefix Caching:复用相同系统 prompt 的 KV,省去重复 prefill
  • 量化(AWQ / GPTQ):降显存、提吞吐,需评估精度损失

SLA 指标

  • TTFT:首 token 延迟,决定交互体感
  • TPOT:每 token 生成时间,决定流式速度
  • 吞吐量:tokens/s,决定单卡服务能力与成本

可靠性

  • 请求排队 + 超时熔断,过载时拒绝而非雪崩
  • 降级到小模型 / 缓存结果兜底
  • 多副本负载均衡、多 AZ 部署

常见误区

⚠️ 常见踩坑

只报平均延迟而不区分 TTFT 与 TPOT,掩盖了流式体验问题;用静态 batch 而非 Continuous Batching,长短请求互相阻塞导致尾延迟爆炸;只关心吞吐不设排队上限与超时熔断,过载时整服务雪崩。

追问

追问 1Prefill-Decode 分离架构?

Prefill 节点批量大、算力型;Decode 节点重内存带宽与 KV Cache,可独立扩缩容。vLLM、TensorRT-LLM 等支持 PD 分离,按流量特征分别弹性,降低尾延迟与成本。

追问 2如何做模型 A/B 测试?

流量随机分层到模型 A/B;定义主指标(准确率、转化率)与护栏(延迟、成本、投诉率);样本量与实验周期做功效分析;注意辛普森悖论与新奇效应;灰度发布 + 可回滚。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。

🛠️ AI 工具

  • BentoML

    AI 模型服务化框架,8.6K+ stars。最简化的方式部署 AI 应用和模型,支持模型推理 API、任务队列、LLM 服务等,是模型从实验到生产的桥梁

  • TensorRT-LLM

    NVIDIA TensorRT-LLM 提供易用的 Python API 定义 LLM,支持最先进的推理优化,在 NVIDIA GPU 上实现极致推理性能

  • gateway

    AI 网关,12K+ stars。集成防护栏的高速 AI 网关,支持路由到 200+ LLM 和 50+ AI 基础设施,提供负载均衡和成本优化

  • SGLang

    高性能 LLM 和多模态模型服务框架,27K+ stars。采用 RadixAttention 等高效注意力实现,支持 DeepSeek、Llama、Qwen、GPT-OSS 等主流模型的高吞吐推理服务,是 vLLM 之外另一个生产级推理引擎选择

  • vLLM

    高吞吐 LLM 推理引擎,77,418+ stars。采用 PagedAttention 显存优化技术,吞吐量比 HuggingFace Transformers 高 24 倍,是生产环境部署大模型推理的首选方案,支持 OpenAI 兼容 API