高吞吐 LLM 推理引擎,77,418+ stars。采用 PagedAttention 显存优化技术,吞吐量比 HuggingFace Transformers 高 24 倍,是生产环境部署大模型推理的首选方案,支持 OpenAI 兼容 API

🎯适用场景:生产环境模型推理服务

#推理引擎#高性能#PagedAttention#生产部署

📥 收录于 2026/4/13

📊 仓库数据

Stars84,651
Forks18,610
语言Python
上线2023/2/9
更新2026/6/29

📈 Stars 变化 6 小时 +27· 统计区间 6/28 18:12 → 6/29 00:15(6 小时)

优点

  • 吞吐量行业领先(HF 的 24 倍)
  • PagedAttention 显存优化
  • OpenAI 兼容 API 无缝迁移
  • 支持多种模型架构

⚠️ 限制

  • 仅支持推理不支持训练
  • 部分新模型适配有延迟
  • 多 GPU 分布式推理配置复杂

🔗 相关工具

SGLang

开源30k+4

github.com/sgl-project/sglang

高性能 LLM 和多模态模型服务框架,27K+ stars。采用 RadixAttention 等高效注意力实现,支持 DeepSeek、Llama、Qwen、GPT-OSS 等主流模型的高吞吐推理服务,是 vLLM 之外另一个生产级推理引擎选择

🎯生产环境模型推理服务

#推理引擎#LLM 服务#多模态#高吞吐
语言Python
🍴 Forks6,780
🔄 更新2026/6/28
📥 收录2026/5/19

Shimmy

开源5.5k+7

github.com/Michael-A-Kuykendall/shimmy

纯 Rust 编写的 WebGPU 推理引擎,兼容 OpenAI API,原生支持 GGUF 格式。零 Python 依赖,单二进制文件,可在任意 GPU 上运行

🎯本地 LLM 推理、边缘部署、无需 Python 的推理服务

#Rust#WebGPU#推理引擎#GGUF+1
语言Rust
🍴 Forks530
🔄 更新2026/6/28
📥 收录2026/6/8

Tessera

开源386+5

github.com/zengxiao-he/tessera

从零构建的 LLM 蒸馏与推理引擎,310+ stars。包含自定义 Triton/CUDA 内核、FSDP 蒸馏、Paged-KV 连续批处理、推测解码、Rust 网关、JAX 解释性工具,是深入理解 LLM 推理全栈技术的教学级项目

🎯LLM 蒸馏与推理引擎学习、生产环境模型推理服务

#知识蒸馏#推理引擎#CUDA#推测解码+1
语言Python
🍴 Forks4
🔄 更新2026/6/28
📥 收录2026/6/23

TensorRT-LLM

开源14k

github.com/NVIDIA/TensorRT-LLM

NVIDIA TensorRT-LLM 提供易用的 Python API 定义 LLM,支持最先进的推理优化,在 NVIDIA GPU 上实现极致推理性能

🎯在 NVIDIA GPU 上获得最优 LLM 推理性能

#NVIDIA#推理优化#GPU#TensorRT
语言Python
🍴 Forks2,497
🔄 更新2026/6/28
📥 收录2026/6/11

AIChat

开源10k

github.com/sigoden/aichat

Rust 编写的全能 LLM CLI 工具,集成 Shell 助手、Chat-REPL 交互式对话、RAG 文档检索、AI 工具与 Agent 等多种模式。支持 OpenAI、Claude、Gemini、Ollama 等 20+ LLM 提供商,可配置多角色和自定义 Prompt。Rust 实现带来极快的启动速度和极低的资源占用,是终端用户和开发者高效使用 AI 的首选命令行工具

🎯生产环境模型推理服务

#命令行#Rust#RAG#Shell 助手
语言Rust
🍴 Forks707
📅 上线2023/3/3
🔄 更新2026/6/28
📥 收录2026/4/13

LMCache

开源9.9k+8

github.com/LMCache/LMCache

LLM KV Cache 加速层,通过智能缓存机制显著提升大语言模型推理速度。兼容 vLLM 等主流推理框架,可将重复前缀场景的推理延迟降低数倍。8.3K+ stars。

🎯LLM 推理加速、重复前缀场景优化、多轮对话性能提升

#Amd#Cuda#Fast#推理
语言Python
🍴 Forks1,432
🔄 更新2026/6/29
📥 收录2026/6/3