Chitu 赤兔

开源推理 & 运维 › 推理引擎⭐ 3.1k

清华团队开发的高性能 LLM 推理框架，专注效率、灵活性和可用性，支持多种模型架构。

🎯适用场景：大模型推理加速——在科研或生产环境中部署高效 LLM 推理服务。

#开源#python

📥 收录于 2026/6/9

访问工具

📊 仓库数据

Stars3,136

Forks270

语言Python

更新2026/7/24

✅ 优点

•清华开源，学术背景强
•高性能推理优化
•灵活支持多种模型架构

⚠️ 限制

•相对较新，社区生态不如 vLLM 成熟
•文档以中文为主

🔗 相关工具

LightLLM

开源⭐ 4.2k↑+1

github.com/ModelTC/LightLLM

轻量级 LLM 推理服务框架，以轻量设计、易扩展和高速性能著称，支持多模型部署和高并发推理。

🎯部署大语言模型推理服务——在自有服务器上快速搭建轻量高效的 LLM 推理 API。

Lorax

开源⭐ 3.8k

github.com/predibase/lorax

多 LoRA 推理服务器，可扩展至数千个微调大语言模型，显著降低部署多个微调模型的成本。

🎯部署大量微调模型——一台服务器同时服务上千个 LoRA 微调模型，大幅节省显存和部署成本。

Llama Stack

开源⭐ 8.4k

github.com/meta-llama/llama-stack

Meta 推出的 Llama 4 系列模型统一部署栈，支持推理、微调和多模型路由，4 月新增 6,400+ 星。提供标准化的 API 接口和工具链，覆盖从模型加载、推理服务、微调到评估的全流程，简化 Llama 系列模型的部署和运维，是 Llama 生态的官方基础设施

🎯多模型 API 统一接入与路由

DeepSpec

开源⭐ 6.8k↑+9

github.com/deepseek-ai/DeepSpec

DeepSeek 开源的推测解码（Speculative Decoding）全栈训练与评估代码库，包含 DSpark、DFlash、Eagle3 三种算法。在 DeepSeek-V4 上实现 60-85% 的每用户生成速度提升，输出质量完全一致。MIT 协议，6.5k+ stars。

🎯LLM 推理加速，无损输出质量的推测解码训练与部署

#推测解码#推理加速#开源#DeepSeek+1

DFlash

开源⭐ 5.5k↑+2

github.com/z-lab/dflash

Block Diffusion for Flash Speculative Decoding，加速 LLM 推理的新型解码方法。通过推测解码 + 块扩散显著降低 LLM 推理延迟，GitHub 1.3k stars。在保持输出质量的同时，将推理吞吐量提升数倍，是大模型高效推理的前沿研究方向

🎯LLM 推测解码加速、降低大模型推理延迟

Tensorflow

开源⭐ 196k↑+8

github.com/tensorflow/tensorflow

全球最流行的机器学习框架之一，195K+ stars。Google 开源的端到端 ML 平台，支持 TensorFlow、Keras 等多种 API，覆盖深度学习、强化学习、移动端部署等全场景，是 AI 工程师的必备工具

🎯深度学习模型训练、移动端 AI 部署、生产环境 ML 推理服务

#深度学习#deep-neural-networks#分布式#机器学习+1