Chitu 赤兔
清华团队开发的高性能 LLM 推理框架,专注效率、灵活性和可用性,支持多种模型架构。
🎯适用场景:大模型推理加速——在科研或生产环境中部署高效 LLM 推理服务。
📥 收录于 2026/6/9
📊 仓库数据
✅ 优点
- •清华开源,学术背景强
- •高性能推理优化
- •灵活支持多种模型架构
⚠️ 限制
- •相对较新,社区生态不如 vLLM 成熟
- •文档以中文为主
🔗 相关工具
LightLLM
github.com/ModelTC/LightLLM
轻量级 LLM 推理服务框架,以轻量设计、易扩展和高速性能著称,支持多模型部署和高并发推理。
🎯部署大语言模型推理服务——在自有服务器上快速搭建轻量高效的 LLM 推理 API。
Lorax
github.com/predibase/lorax
多 LoRA 推理服务器,可扩展至数千个微调大语言模型,显著降低部署多个微调模型的成本。
🎯部署大量微调模型——一台服务器同时服务上千个 LoRA 微调模型,大幅节省显存和部署成本。
Llama Stack
github.com/meta-llama/llama-stack
Meta 推出的 Llama 4 系列模型统一部署栈,支持推理、微调和多模型路由,4 月新增 6,400+ 星。提供标准化的 API 接口和工具链,覆盖从模型加载、推理服务、微调到评估的全流程,简化 Llama 系列模型的部署和运维,是 Llama 生态的官方基础设施
🎯多模型 API 统一接入与路由
DFlash
github.com/z-lab/dflash
Block Diffusion for Flash Speculative Decoding,加速 LLM 推理的新型解码方法。通过推测解码 + 块扩散显著降低 LLM 推理延迟,GitHub 1.3k stars。在保持输出质量的同时,将推理吞吐量提升数倍,是大模型高效推理的前沿研究方向
🎯LLM 推测解码加速、降低大模型推理延迟
Tensorflow
github.com/tensorflow/tensorflow
全球最流行的机器学习框架之一,195K+ stars。Google 开源的端到端 ML 平台,支持 TensorFlow、Keras 等多种 API,覆盖深度学习、强化学习、移动端部署等全场景,是 AI 工程师的必备工具
🎯深度学习模型训练、移动端 AI 部署、生产环境 ML 推理服务
Prometheus
github.com/prometheus/prometheus
开源监控系统和时序数据库,CNCF 毕业项目。采用多维数据模型和 PromQL 查询语言,是云原生和 AI 基础设施监控的事实标准,可与 Grafana 无缝集成。
🎯AI 服务 GPU 使用率监控、模型推理延迟追踪、Kubernetes 集群资源监控