加载中...

SUPPORT

觉得内容有帮助？请站长喝杯咖啡 ☕

网站所有内容免费，但运维不免费 😭 AI、服务器、域名……你的支持将用来维持网站正常运行，让这个小站还能继续写下去~

微信赞助收款二维码

打开微信扫一扫 · 金额随意

首页知识库工具博客资讯术语表面试题库关于?个人中心

首页/工具/推理 & 运维/推理引擎/TensorRT-LLM

⚡

TensorRT-LLM

开源推理 & 运维 › 推理引擎 › LLM 推理服务⭐ 14k↑+6

NVIDIA TensorRT-LLM 提供易用的 Python API 定义 LLM，支持最先进的推理优化，在 NVIDIA GPU 上实现极致推理性能

🎯适用场景：在 NVIDIA GPU 上获得最优 LLM 推理性能

#NVIDIA#推理优化#GPU#TensorRT

📥 收录于 2026/6/11

📊 仓库数据

⭐Stars14,194

🍴Forks2,596

🟢语言Python

🔄更新2026/7/24

📈 Stars 变化 ↑11 小时 +6· 统计区间 7/24 12:26 → 7/24 23:22（11 小时）

✅ 优点

•NVIDIA 官方优化
•极致推理性能
•Python API 易用

⚠️ 限制

•依赖 NVIDIA GPU
•配置较复杂

🔗 相关工具

vLLM Omni

开源⭐ 5.7k↑+14

github.com/vllm-project/vllm-omni

基于 vLLM 的多模态高效推理框架，支持 Omni 模态模型的部署和推理优化，扩展了 vLLM 的能力边界。

🎯多模态模型高效推理——适合需要部署视觉/音频等多模态大语言模型的场景

#vLLM#多模态#推理优化#Omni

🍴 Forks1,336

🔄 更新2026/7/24

📥 收录2026/5/28

访问工具 →

vLLM

开源⭐ 87k↑+53

github.com/vllm-project/vllm

高吞吐 LLM 推理引擎，77,418+ stars。采用 PagedAttention 显存优化技术，吞吐量比 HuggingFace Transformers 高 24 倍，是生产环境部署大模型推理的首选方案，支持 OpenAI 兼容 API

🎯生产环境模型推理服务

#推理引擎#高性能#PagedAttention#生产部署

🍴 Forks19,811

📅 上线2023/2/9

🔄 更新2026/7/24

📥 收录2026/4/13

访问工具 →

SGLang

开源⭐ 31k↑+16

github.com/sgl-project/sglang

高性能 LLM 和多模态模型服务框架，27K+ stars。采用 RadixAttention 等高效注意力实现，支持 DeepSeek、Llama、Qwen、GPT-OSS 等主流模型的高吞吐推理服务，是 vLLM 之外另一个生产级推理引擎选择

🎯生产环境模型推理服务

#推理引擎#LLM 服务#多模态#高吞吐

🍴 Forks7,376

🔄 更新2026/7/24

📥 收录2026/5/19

访问工具 →

LMCache

开源⭐ 11k↑+10

github.com/LMCache/LMCache

LLM KV Cache 加速层，通过智能缓存机制显著提升大语言模型推理速度。兼容 vLLM 等主流推理框架，可将重复前缀场景的推理延迟降低数倍。8.3K+ stars。

🎯LLM 推理加速、重复前缀场景优化、多轮对话性能提升

#Amd#Cuda#Fast#推理

🍴 Forks1,612

🔄 更新2026/7/24

📥 收录2026/6/3

访问工具 →

OpenRLHF

开源⭐ 9.8k↑+2

github.com/OpenRLHF/OpenRLHF

可扩展的 Agentic RL 训练框架，9.6K+ stars。基于 Ray 构建，支持 PPO/DAPO/REINFORCE++ 等算法，集成 vLLM 加速推理

🎯LLM 对齐训练（RLHF/DPO）、Agent 强化学习

#强化学习#RLHF#PPO#LLM 训练+1

📅 上线2023/7/30

🔄 更新2026/7/24

📥 收录2026/6/5

访问工具 →

DeepGEMM

开源⭐ 7.6k↑+2

github.com/deepseek-ai/DeepGEMM

DeepGEMM 是 DeepSeek 开源的高性能 FP8 GEMM（通用矩阵乘法）内核库，周增 605 stars，当前 6,998 stars。它专为 FP8 精度的大模型推理和训练设计，提供细粒度缩放（Fine-grained Scaling）的 GEMM 内核实现。与 vLLM 等推理引擎不同，DeepGEMM 聚焦在底层的 GEMM 计算优化层面——它是 FP8 量化推理的基础设施。在 FP8 已成为大模型推理主流精度格式的今天，DeepGEMM 提供了从 CUDA 内核层面优化 FP8 计算的关键能力，是高性能 LLM 推理栈中不可或缺的一环。

🎯大模型推理 GEMM 内核加速、GPU 矩阵运算优化

#FP8#GEMM#CUDA 内核#DeepSeek+1

🍴 Forks1,130

📅 上线2026/3/15

🔄 更新2026/7/24

📥 收录2026/4/25

访问工具 →

← 浏览全部 1468 个工具

AI Master 致力于成为最优质的中文 AI 学习平台，让每个人都能掌握人工智能技术。

意见 · 内容纠错 · 需求 · 交流 — support.aimaster.cc@gmail.com

学习资源

📊 机器学习
🧠 深度学习
💬 自然语言处理
👁️ 计算机视觉

关于

关于我们
知识库
博客
工具
资讯
术语表
面试题库

© 2026 AI Master. All rights reserved. Built with ❤️ and AI.