LLM KV Cache 加速层,通过智能缓存机制显著提升大语言模型推理速度。兼容 vLLM 等主流推理框架,可将重复前缀场景的推理延迟降低数倍。8.3K+ stars。

🎯适用场景:LLM 推理加速、重复前缀场景优化、多轮对话性能提升

#Amd#Cuda#Fast#推理

📥 收录于 2026/6/3

📊 仓库数据

Stars8,504
Forks1,279
语言Python
更新2026/6/12

📈 Stars 变化 1 天 +25· 统计区间 6/11 00:29 → 6/12 00:29(1 天)

优点

  • 显著提升推理吞吐
  • 兼容主流推理框架
  • 对重复前缀场景效果显著

⚠️ 限制

  • 主要优化重复前缀场景
  • 需要额外内存开销
  • 配置调优有一定门槛

🔗 相关工具

DeepReasoning

开源5.4k

github.com/winfunc/deepreasoning

高性能 LLM 推理 API 和聊天界面,集成 DeepSeek R1 的 CoT 推理链与 Claude,支持流式推理

🎯高性能 LLM 推理服务集成 DeepSeek R1

#DeepSeek#推理#CoT#API
语言Rust
🍴 Forks441
🔄 更新2026/6/9
📥 收录2026/6/11

vLLM

开源83k+187

github.com/vllm-project/vllm

高吞吐 LLM 推理引擎,77,418+ stars。采用 PagedAttention 显存优化技术,吞吐量比 HuggingFace Transformers 高 24 倍,是生产环境部署大模型推理的首选方案,支持 OpenAI 兼容 API

🎯生产环境模型推理服务

#推理引擎#高性能#PagedAttention#生产部署
语言Python
🍴 Forks17,965
📅 上线2023/2/9
🔄 更新2026/6/12
📥 收录2026/4/13

SGLang

开源29k+13

github.com/sgl-project/sglang

高性能 LLM 和多模态模型服务框架,27K+ stars。采用 RadixAttention 等高效注意力实现,支持 DeepSeek、Llama、Qwen、GPT-OSS 等主流模型的高吞吐推理服务,是 vLLM 之外另一个生产级推理引擎选择

🎯生产环境模型推理服务

#推理引擎#LLM 服务#多模态#高吞吐
语言Python
🍴 Forks6,476
🔄 更新2026/6/12
📥 收录2026/5/19

Harbor

开源29k

github.com/av/harbor

一键部署完整的 LLM 技术栈。一条命令即可启动预配置的本地 LLM 环境,内置数百种服务可探索

🎯快速搭建本地 LLM 开发环境、AI 工具探索

#一键部署#LLM 栈#Docker#自托管+1
语言Go
🍴 Forks5,252
🔄 更新2026/6/12
📥 收录2026/6/8

TensorRT-LLM

开源14k+6

github.com/NVIDIA/TensorRT-LLM

NVIDIA TensorRT-LLM 提供易用的 Python API 定义 LLM,支持最先进的推理优化,在 NVIDIA GPU 上实现极致推理性能

🎯在 NVIDIA GPU 上获得最优 LLM 推理性能

#NVIDIA#推理优化#GPU#TensorRT
语言Python
🍴 Forks2,463
🔄 更新2026/6/12
📥 收录2026/6/11

OpenRLHF

开源9.6k+4

github.com/OpenRLHF/OpenRLHF

可扩展的 Agentic RL 训练框架,9.6K+ stars。基于 Ray 构建,支持 PPO/DAPO/REINFORCE++ 等算法,集成 vLLM 加速推理

🎯LLM 对齐训练(RLHF/DPO)、Agent 强化学习

#强化学习#RLHF#PPO#LLM 训练+1
语言Python
🍴 Forks968
📅 上线2023/7/30
🔄 更新2026/6/12
📥 收录2026/6/5