主流大模型部署/推理框架 vLLM、TGI、llama.cpp、SGLang 如何对比与选型？

Q: 主流大模型部署/推理框架 vLLM、TGI、llama.cpp、SGLang 如何对比与选型？

这四个框架定位不同，选型本质是「硬件 + 负载形态 + 生态」的匹配，而非比谁绝对更快。 vLLM：核心创新是 PagedAttention——把 KV Cache 像操作系统分页一样按块管理，几乎消除显存碎片，从而能容纳更大 batch；配合连续批处理让新请求随到随进、已完成请求即时退出，GPU 利用率和并发吞吐显著高于静态批处理。它是当下 GPU 在线高并发服务的事实标准，兼容 OpenAI 风格 API，社区与模型支持广。 TGI：HuggingFace 出品的生产级推理服务器，张量并行、连续批处理、量化、流式输出、Prometheus 指标、健康检查等一应俱全，且与 HF Hub / Transformers 生态衔接最顺。当团队已深度使用 HF 生态、追求开箱即用的工程完备度时是稳妥之选。 llama.cpp：纯 C/C++、依赖极少，支持 CPU、边缘设备和 Mac（Metal），以 GGUF 量化把大模型塞进有限内存。它不是为高并发 GPU 集群设计的，而是本地、离线、嵌入式、个人设备场景的利器（Ollama 等也基于它）。 SGLang：用 RadixAttention 以基数树自动复用共享前缀的 KV Cache，对复杂控制流、结构化/约束解码（JSON、正则）、多轮 Agent、few-shot 模板这类有大量重复前缀的负载收益巨大，吞吐与延迟表现优异。 选型维度：① 吞吐/延迟要求；② 硬件是 GPU 还是 CPU/边缘/Mac；③ 并发规模；④ 是否需要结构化输出与复杂控制流（偏 SGLang）；⑤ 现有生态（重 HF 选 TGI）。一句话：GPU 高并发在线服务选 vLLM，重 HF 工程化选 TGI，CPU/边缘/本地选 llama.cpp，结构化输出与 Agent 复杂控制流选 SGLang。

Question 1

Accepted Answer

这四个框架定位不同，选型本质是「硬件 + 负载形态 + 生态」的匹配，而非比谁绝对更快。

vLLM：核心创新是 PagedAttention——把 KV Cache 像操作系统分页一样按块管理，几乎消除显存碎片，从而能容纳更大 batch；配合连续批处理让新请求随到随进、已完成请求即时退出，GPU 利用率和并发吞吐显著高于静态批处理。它是当下 GPU 在线高并发服务的事实标准，兼容 OpenAI 风格 API，社区与模型支持广。

TGI：HuggingFace 出品的生产级推理服务器，张量并行、连续批处理、量化、流式输出、Prometheus 指标、健康检查等一应俱全，且与 HF Hub / Transformers 生态衔接最顺。当团队已深度使用 HF 生态、追求开箱即用的工程完备度时是稳妥之选。

llama.cpp：纯 C/C++、依赖极少，支持 CPU、边缘设备和 Mac（Metal），以 GGUF 量化把大模型塞进有限内存。它不是为高并发 GPU 集群设计的，而是本地、离线、嵌入式、个人设备场景的利器（Ollama 等也基于它）。

SGLang：用 RadixAttention 以基数树自动复用共享前缀的 KV Cache，对复杂控制流、结构化/约束解码（JSON、正则）、多轮 Agent、few-shot 模板这类有大量重复前缀的负载收益巨大，吞吐与延迟表现优异。

选型维度：① 吞吐/延迟要求；② 硬件是 GPU 还是 CPU/边缘/Mac；③ 并发规模；④ 是否需要结构化输出与复杂控制流（偏 SGLang）；⑤ 现有生态（重 HF 选 TGI）。一句话：GPU 高并发在线服务选 vLLM，重 HF 工程化选 TGI，CPU/边缘/本地选 llama.cpp，结构化输出与 Agent 复杂控制流选 SGLang。

Question 2

PagedAttention 到底解决了什么问题，为什么能提吞吐？

Accepted Answer

传统实现给每个序列预留连续显存存 KV Cache，长度不一造成大量内部碎片和过度预留，可容纳的并发请求受限。PagedAttention 把 KV Cache 切成固定大小的块、用页表非连续存储并按需分配，碎片几乎消失、显存利用率接近满载，于是能塞下更大 batch；再叠加连续批处理，GPU 不再空等，整体吞吐大幅提升。

Question 3

SGLang 的 RadixAttention 和普通 KV Cache 复用有何不同？

Accepted Answer

普通前缀缓存通常只能命中完全相同的前缀。RadixAttention 用基数（前缀）树组织所有请求的 KV Cache，能自动发现并复用任意请求间共享的前缀片段——比如相同 system prompt、few-shot 示例、Agent 多轮历史，命中率更高。对结构化输出和有大量重复前缀的 Agent 负载，省去重复 prefill，延迟与吞吐都明显改善。

Question 4

如果只在本地 Mac 上给少量用户跑模型，怎么选？

Accepted Answer

优先 llama.cpp（或基于它的 Ollama）：纯 C/C++、对 Apple Silicon 的 Metal 加速友好，用 GGUF 量化可在有限内存里跑中等规模模型，部署简单、无需 GPU 集群。这种低并发本地场景，vLLM/TGI 的高并发优势用不上，反而带来更重的依赖和运维成本。

主流大模型部署/推理框架 vLLM、TGI、llama.cpp、SGLang 如何对比与选型？

核心要点

标准回答

常见误区

追问

🔗 相似问题

延伸学习

核心术语

AI 工具