Tessera

开源推理 & 运维 › 推理引擎 › LLM 推理服务⭐ 313↑+3

从零构建的 LLM 蒸馏与推理引擎，310+ stars。包含自定义 Triton/CUDA 内核、FSDP 蒸馏、Paged-KV 连续批处理、推测解码、Rust 网关、JAX 解释性工具，是深入理解 LLM 推理全栈技术的教学级项目

🎯适用场景：LLM 蒸馏与推理引擎学习、生产环境模型推理服务

#知识蒸馏#推理引擎#CUDA#推测解码#Rust

📥 收录于 2026/6/23

访问工具

📊 仓库数据

Stars313

Forks4

语言Python

协议MIT

更新2026/6/24

📈 Stars 变化 ↑6 小时 +3· 统计区间 6/24 00:08 → 6/24 06:11（6 小时）

✅ 优点

•从零实现全栈推理系统
•自定义 Triton/CUDA 内核
•FSDP 蒸馏 + 推测解码
•Rust 网关高性能服务

⚠️ 限制

•项目较新生态不成熟
•文档偏少需要读源码
•需要 CUDA GPU 环境

🔗 相关工具

Shimmy

开源⭐ 5.5k

github.com/Michael-A-Kuykendall/shimmy

纯 Rust 编写的 WebGPU 推理引擎，兼容 OpenAI API，原生支持 GGUF 格式。零 Python 依赖，单二进制文件，可在任意 GPU 上运行

🎯本地 LLM 推理、边缘部署、无需 Python 的推理服务

#Rust#WebGPU#推理引擎#GGUF+1

语言Rust

🍴 Forks525

🔄 更新2026/6/23

📥 收录2026/6/8

vLLM

开源⭐ 84k↑+8

github.com/vllm-project/vllm

高吞吐 LLM 推理引擎，77,418+ stars。采用 PagedAttention 显存优化技术，吞吐量比 HuggingFace Transformers 高 24 倍，是生产环境部署大模型推理的首选方案，支持 OpenAI 兼容 API

🎯生产环境模型推理服务

#推理引擎#高性能#PagedAttention#生产部署

语言Python

🍴 Forks18,375

📅 上线2023/2/9

🔄 更新2026/6/24

📥 收录2026/4/13

SGLang

开源⭐ 30k↑+7

github.com/sgl-project/sglang

高性能 LLM 和多模态模型服务框架，27K+ stars。采用 RadixAttention 等高效注意力实现，支持 DeepSeek、Llama、Qwen、GPT-OSS 等主流模型的高吞吐推理服务，是 vLLM 之外另一个生产级推理引擎选择

🎯生产环境模型推理服务

#推理引擎#LLM 服务#多模态#高吞吐

语言Python

🍴 Forks6,682

🔄 更新2026/6/24

📥 收录2026/5/19

TensorRT-LLM

开源⭐ 14k

github.com/NVIDIA/TensorRT-LLM

NVIDIA TensorRT-LLM 提供易用的 Python API 定义 LLM，支持最先进的推理优化，在 NVIDIA GPU 上实现极致推理性能

🎯在 NVIDIA GPU 上获得最优 LLM 推理性能

#NVIDIA#推理优化#GPU#TensorRT

语言Python

🍴 Forks2,490

🔄 更新2026/6/24

📥 收录2026/6/11

LMCache

开源⭐ 9.7k↑+17

github.com/LMCache/LMCache

LLM KV Cache 加速层，通过智能缓存机制显著提升大语言模型推理速度。兼容 vLLM 等主流推理框架，可将重复前缀场景的推理延迟降低数倍。8.3K+ stars。

🎯LLM 推理加速、重复前缀场景优化、多轮对话性能提升

#Amd#Cuda#Fast#推理

语言Python

🍴 Forks1,389

🔄 更新2026/6/24

📥 收录2026/6/3

OpenRLHF

开源⭐ 9.7k↑+2

github.com/OpenRLHF/OpenRLHF

可扩展的 Agentic RL 训练框架，9.6K+ stars。基于 Ray 构建，支持 PPO/DAPO/REINFORCE++ 等算法，集成 vLLM 加速推理

🎯LLM 对齐训练（RLHF/DPO）、Agent 强化学习

#强化学习#RLHF#PPO#LLM 训练+1

语言Python

🍴 Forks973

📅 上线2023/7/30

🔄 更新2026/6/24

📥 收录2026/6/5

← 浏览全部 1170 个工具