vLLM

大模型推理加速框架

亦作、亦称：vLLM 推理框架

vLLM 是由加州大学伯克利分校 Sky Computing Lab 开源的高性能大语言模型推理与服务框架，以 PagedAttention 和连续批处理技术为核心，显著提升推理吞吐量并减少显存浪费。它已成为生产级 LLM 部署的主流选型之一。

概述

背景与动机

传统 LLM 推理框架在显存管理上存在严重浪费，限制了并发服务能力。

KV 缓存碎片化：早期框架为每条请求预分配固定连续显存块，序列长度不确定导致大量内部碎片和外部碎片
低吞吐瓶颈：显存利用率低，单卡可并发处理的请求数受限，GPU 算力大量闲置
静态批处理局限：传统静态批处理要求所有请求同时开始、同时结束，灵活性差
成本压力：A100 等高端 GPU 价格昂贵，低效的显存利用直接推高推理成本

核心机制：PagedAttention

PagedAttention 是 vLLM 的核心创新，借鉴操作系统虚拟内存与分页思想重新设计 KV 缓存管理。

分块存储：将每条序列的 KV 缓存切分为固定大小的「块」（block），块可存储在不连续的显存地址中
按需分配：仅在实际生成新 token 时才分配新块，避免预分配造成的浪费
块共享：对于相同前缀（如 system prompt）的多条请求，可共享同一批 KV 块，节省显存
显存利用率提升：相比 HuggingFace Transformers，vLLM 可将显存浪费从 60%–80% 降至 4% 以下
吞吐提升：在相同硬件上吞吐量最高可达 HuggingFace Transformers 的 24 倍

连续批处理

连续批处理（Continuous Batching）允许在同一个推理步骤中动态插入新请求，彻底改变了传统静态批处理模式。

动态插槽：某条请求生成结束后，其显存槽位立刻释放，新请求可在下一步骤即时加入批次
更高 GPU 利用率：GPU 几乎不再等待，每一步都在满负荷处理尽可能多的请求
延迟与吞吐平衡：通过调度策略兼顾首 token 延迟（TTFT）和每 token 生成速度（TPOT）
与 PagedAttention 协同：连续批处理依赖 PagedAttention 的灵活显存管理才能高效实现

进阶功能

除核心机制外，vLLM 持续扩展多项生产级功能。

推测解码（Speculative Decoding）：用小模型草稿 + 大模型校验，实测可将生成速度提升最高 2.8 倍
前缀缓存（Prefix Caching）：对相同提示前缀自动复用 KV 缓存，降低重复计算
分块预填充（Chunked Prefill）：将长提示的预填充阶段切片处理，避免阻塞解码请求
结构化输出：支持 JSON Schema 等格式约束的引导式生成（Guided Decoding）
多后端支持：兼容 CUDA、ROCm（AMD GPU）、TPU 等多种硬件加速后端

发展脉络

vLLM 从学术论文快速成长为业界主流推理框架。

2023 年 6 月：vLLM 项目在 GitHub 首次开源，配套博客发布
2023 年 10 月：论文在 SOSP 2023 正式发表，PagedAttention 获学术认可
2024 年：新增推测解码、前缀缓存、分块预填充等功能，支持多模态模型
2025 年：引入解耦式预填充/解码（Disaggregated P/D）架构，进一步优化集群级吞吐
持续迭代：社区贡献活跃，成为与 TensorRT-LLM、SGLang 并列的主流推理框架

与同类框架对比

vLLM 在开源推理框架中占据重要位置，与其他框架各有侧重。

vs TensorRT-LLM：TensorRT-LLM 由 NVIDIA 官方维护，深度优化 NVIDIA 硬件，编译期优化更激进；vLLM 部署更简便、跨硬件支持更广
vs SGLang：SGLang 在结构化生成和多轮对话场景有特定优化；两者均借鉴了分页 KV 缓存思想
vs TGI（Text Generation Inference）：Hugging Face 出品，生态集成好；vLLM 在高并发吞吐上通常更优
生态地位：vLLM 凭借活跃的开源社区和简洁的 OpenAI 兼容 API，成为中小规模自托管部署的首选

部署与使用

vLLM 提供多种部署方式，对工程团队友好。

OpenAI 兼容接口：内置与 OpenAI Chat Completions API 兼容的服务端，可无缝替换上层应用
Python API：支持离线批量推理（LLM 类）和在线服务（AsyncLLMEngine）两种模式
容器化部署：官方提供 Docker 镜像，可直接部署至 Kubernetes 集群
模型兼容性：支持 Llama、Mistral、Qwen、Gemma、Yi 等主流开源模型以及多模态模型

常见误解

日常交流中容易听到的简化说法，未必准确，但能帮助理解误解从何而来。

「大模型推理加速框架」
「PagedAttention 那套」
「线上 serving 常用」

延伸阅读

从知识库精选 3 篇文章，帮助深入理解该术语。

外部参考

维基百科：查看「vLLM」词条

本页内容为本站原创撰写；维基百科链接仅作延伸参考。

vLLM

大模型推理加速框架

亦作、亦称：vLLM 推理框架

概述

背景与动机

传统 LLM 推理框架在显存管理上存在严重浪费，限制了并发服务能力。

KV 缓存碎片化：早期框架为每条请求预分配固定连续显存块，序列长度不确定导致大量内部碎片和外部碎片
低吞吐瓶颈：显存利用率低，单卡可并发处理的请求数受限，GPU 算力大量闲置
静态批处理局限：传统静态批处理要求所有请求同时开始、同时结束，灵活性差
成本压力：A100 等高端 GPU 价格昂贵，低效的显存利用直接推高推理成本

核心机制：PagedAttention

PagedAttention 是 vLLM 的核心创新，借鉴操作系统虚拟内存与分页思想重新设计 KV 缓存管理。

分块存储：将每条序列的 KV 缓存切分为固定大小的「块」（block），块可存储在不连续的显存地址中
按需分配：仅在实际生成新 token 时才分配新块，避免预分配造成的浪费
块共享：对于相同前缀（如 system prompt）的多条请求，可共享同一批 KV 块，节省显存
显存利用率提升：相比 HuggingFace Transformers，vLLM 可将显存浪费从 60%–80% 降至 4% 以下
吞吐提升：在相同硬件上吞吐量最高可达 HuggingFace Transformers 的 24 倍

连续批处理

连续批处理（Continuous Batching）允许在同一个推理步骤中动态插入新请求，彻底改变了传统静态批处理模式。

动态插槽：某条请求生成结束后，其显存槽位立刻释放，新请求可在下一步骤即时加入批次
更高 GPU 利用率：GPU 几乎不再等待，每一步都在满负荷处理尽可能多的请求
延迟与吞吐平衡：通过调度策略兼顾首 token 延迟（TTFT）和每 token 生成速度（TPOT）
与 PagedAttention 协同：连续批处理依赖 PagedAttention 的灵活显存管理才能高效实现

进阶功能

除核心机制外，vLLM 持续扩展多项生产级功能。

推测解码（Speculative Decoding）：用小模型草稿 + 大模型校验，实测可将生成速度提升最高 2.8 倍
前缀缓存（Prefix Caching）：对相同提示前缀自动复用 KV 缓存，降低重复计算
分块预填充（Chunked Prefill）：将长提示的预填充阶段切片处理，避免阻塞解码请求
结构化输出：支持 JSON Schema 等格式约束的引导式生成（Guided Decoding）
多后端支持：兼容 CUDA、ROCm（AMD GPU）、TPU 等多种硬件加速后端

发展脉络

vLLM 从学术论文快速成长为业界主流推理框架。

2023 年 6 月：vLLM 项目在 GitHub 首次开源，配套博客发布
2023 年 10 月：论文在 SOSP 2023 正式发表，PagedAttention 获学术认可
2024 年：新增推测解码、前缀缓存、分块预填充等功能，支持多模态模型
2025 年：引入解耦式预填充/解码（Disaggregated P/D）架构，进一步优化集群级吞吐
持续迭代：社区贡献活跃，成为与 TensorRT-LLM、SGLang 并列的主流推理框架

与同类框架对比

vLLM 在开源推理框架中占据重要位置，与其他框架各有侧重。

vs TensorRT-LLM：TensorRT-LLM 由 NVIDIA 官方维护，深度优化 NVIDIA 硬件，编译期优化更激进；vLLM 部署更简便、跨硬件支持更广
vs SGLang：SGLang 在结构化生成和多轮对话场景有特定优化；两者均借鉴了分页 KV 缓存思想
vs TGI（Text Generation Inference）：Hugging Face 出品，生态集成好；vLLM 在高并发吞吐上通常更优
生态地位：vLLM 凭借活跃的开源社区和简洁的 OpenAI 兼容 API，成为中小规模自托管部署的首选

部署与使用

vLLM 提供多种部署方式，对工程团队友好。

OpenAI 兼容接口：内置与 OpenAI Chat Completions API 兼容的服务端，可无缝替换上层应用
Python API：支持离线批量推理（LLM 类）和在线服务（AsyncLLMEngine）两种模式
容器化部署：官方提供 Docker 镜像，可直接部署至 Kubernetes 集群
模型兼容性：支持 Llama、Mistral、Qwen、Gemma、Yi 等主流开源模型以及多模态模型

常见误解

日常交流中容易听到的简化说法，未必准确，但能帮助理解误解从何而来。

「大模型推理加速框架」
「PagedAttention 那套」
「线上 serving 常用」

延伸阅读

从知识库精选 3 篇文章，帮助深入理解该术语。

外部参考

维基百科：查看「vLLM」词条

本页内容为本站原创撰写；维基百科链接仅作延伸参考。

vLLM

概述

背景与动机

核心机制：PagedAttention

连续批处理

进阶功能

发展脉络

与同类框架对比

部署与使用

常见误解

相关术语

延伸阅读

LLM 推理优化：量化、剪枝、蒸馏与推理加速实战

LLM 推理加速（四）：新范式从 Speculative Decoding 到 DFlash

认识 AI：从概念到实践的全景导览

外部参考

觉得内容有帮助？请站长喝杯咖啡 ☕

vLLM

概述

背景与动机

核心机制：PagedAttention

连续批处理

进阶功能

发展脉络

与同类框架对比

部署与使用

常见误解

相关术语

延伸阅读

LLM 推理优化：量化、剪枝、蒸馏与推理加速实战

LLM 推理加速（四）：新范式从 Speculative Decoding 到 DFlash

认识 AI：从概念到实践的全景导览

外部参考