PagedAttention
KV Cache 分页管理
亦作、亦称:分页注意力
将 KV Cache 按固定大小分页存储,像操作系统虚拟内存一样减少碎片并支持更长序列与更大并发。 PagedAttention 将 KV Cache 切分为固定页块,减少显存碎片并支持更大并发,是 vLLM 的标志性优化。
工作原理
将 KV Cache 按固定大小分页存储,像操作系统虚拟内存一样减少碎片并支持更长序列与更大并发。 PagedAttention 将 KV Cache 切分为固定页块,减少显存碎片并支持更大并发,是 vLLM 的标志性优化。
应用场景
PagedAttention常见于:在线推理加速、批处理优化、端侧部署与 SLA 保障。实际选型需结合业务指标、数据规模与部署约束评估适用性。
局限与误区
围绕 PagedAttention 的口语化说法(见「常见误解」)常过度简化。效果依赖数据质量、任务匹配与系统整体设计;生产环境应配合评测、监控与人工复核。
背景与发展
PagedAttention随 AI 研究与工程实践持续演进,定义边界与最佳实践仍在更新。建议结合原始论文、官方文档与本站延伸阅读建立准确认知。
常见误解
日常交流中容易听到的简化说法,未必准确,但能帮助理解误解从何而来。
- 「KV Cache 分页管理」
- 「像虚拟内存管 KV」
- 「vLLM 的核心技术」
相关术语
和本术语关联紧密的其他词条,便于串联理解。
延伸阅读
从知识库精选 3 篇文章,帮助深入理解该术语。
- 1
LLM 推理加速(四):新范式从 Speculative Decoding 到 DFlash
2026 年 4 月,z-lab 开源的 DFlash(Block Diffusion for Flash Speculative Decoding)一周内突破 2,000 星,将推测解码技术推向了新的高度。从 2023 年的 SpecInfer 到 2024 年的 Medusa、Eagle,再到 2025 年的 Lookahead Decoding 和 2026 年的 DFlash,LLM 推理加速经历了从「验证单 Token」到「预测 Token 块」再到「扩散式生成」的范式跃迁。本文深度解析推测解码的完整技术演进路线,对比 5 种主流方法的原理与性能,提供完整的 Python 实现代码,并给出生产部署的实战指南。
- 2
LLM 推理优化:量化、剪枝、蒸馏与推理加速实战
系统讲解大语言模型推理优化的四大核心技术——量化(Quantization)、剪枝(Pruning)、知识蒸馏(Knowledge Distillation)和推理引擎加速,覆盖从原理到实战的完整链路
- 3
LLM 推理加速实战:从 KV Cache 优化到推测解码
系统梳理 LLM 推理加速的核心技术——KV Cache 管理、PagedAttention、推测解码、连续批处理,掌握生产环境推理优化的决策框架和工具链