TensorRT-LLM
NVIDIA TensorRT-LLM 提供易用的 Python API 定义 LLM,支持最先进的推理优化,在 NVIDIA GPU 上实现极致推理性能
🎯适用场景:在 NVIDIA GPU 上获得最优 LLM 推理性能
📥 收录于 2026/6/11
📊 仓库数据
📈 Stars 变化 ↑18 小时 +6· 统计区间 6/11 19:09 → 6/12 13:10(18 小时)
✅ 优点
- •NVIDIA 官方优化
- •极致推理性能
- •Python API 易用
⚠️ 限制
- •依赖 NVIDIA GPU
- •配置较复杂
🔗 相关工具
vLLM Omni
github.com/vllm-project/vllm-omni
基于 vLLM 的多模态高效推理框架,支持 Omni 模态模型的部署和推理优化,扩展了 vLLM 的能力边界。
🎯多模态模型高效推理——适合需要部署视觉/音频等多模态大语言模型的场景
vLLM
github.com/vllm-project/vllm
高吞吐 LLM 推理引擎,77,418+ stars。采用 PagedAttention 显存优化技术,吞吐量比 HuggingFace Transformers 高 24 倍,是生产环境部署大模型推理的首选方案,支持 OpenAI 兼容 API
🎯生产环境模型推理服务
SGLang
github.com/sgl-project/sglang
高性能 LLM 和多模态模型服务框架,27K+ stars。采用 RadixAttention 等高效注意力实现,支持 DeepSeek、Llama、Qwen、GPT-OSS 等主流模型的高吞吐推理服务,是 vLLM 之外另一个生产级推理引擎选择
🎯生产环境模型推理服务
Harbor
github.com/av/harbor
一键部署完整的 LLM 技术栈。一条命令即可启动预配置的本地 LLM 环境,内置数百种服务可探索
🎯快速搭建本地 LLM 开发环境、AI 工具探索
OpenRLHF
github.com/OpenRLHF/OpenRLHF
可扩展的 Agentic RL 训练框架,9.6K+ stars。基于 Ray 构建,支持 PPO/DAPO/REINFORCE++ 等算法,集成 vLLM 加速推理
🎯LLM 对齐训练(RLHF/DPO)、Agent 强化学习
LMCache
github.com/LMCache/LMCache
LLM KV Cache 加速层,通过智能缓存机制显著提升大语言模型推理速度。兼容 vLLM 等主流推理框架,可将重复前缀场景的推理延迟降低数倍。8.3K+ stars。
🎯LLM 推理加速、重复前缀场景优化、多轮对话性能提升