Llama Stack

Meta 推出的 Llama 4 系列模型统一部署栈,支持推理、微调和多模型路由,4 月新增 6,400+ 星。提供标准化的 API 接口和工具链,覆盖从模型加载、推理服务、微调到评估的全流程,简化 Llama 系列模型的部署和运维,是 Llama 生态的官方基础设施

🎯适用场景:多模型 API 统一接入与路由

#部署#Llama 4#开源#统一栈

📥 收录于 2026/4/13

📊 仓库数据

Stars8,418
Forks1,318
语言Python
上线2025/1/1
更新2026/6/28

优点

  • Meta 官方维护,与 Llama 4 深度集成
  • 覆盖推理、微调、评估全流程
  • 标准化 API 简化集成
  • 开源免费

⚠️ 限制

  • 仅支持 Llama 系列模型
  • 文档和社区仍在发展
  • 部署配置有一定门槛
  • 非 Llama 模型支持有限

🔗 相关工具

Xinference

开源9.4k+1

github.com/xorbitsai/inference

统一的多模型推理平台,通过一行代码即可切换不同 LLM。支持开源模型、语音模型和多模态模型在云端、本地或笔记本电脑上的部署,提供生产级 API 服务。

🎯快速部署多种开源 LLM 和多模态模型,统一 API 接口,适合需要同时运行多个模型的团队或企业

#人工智能#chatglm#部署#flan-t5+1
语言Python
🍴 Forks839
🔄 更新2026/6/29
📥 收录2026/5/25

DFlash

开源5.3k+8

github.com/z-lab/dflash

Block Diffusion for Flash Speculative Decoding,加速 LLM 推理的新型解码方法。通过推测解码 + 块扩散显著降低 LLM 推理延迟,GitHub 1.3k stars。在保持输出质量的同时,将推理吞吐量提升数倍,是大模型高效推理的前沿研究方向

🎯LLM 推测解码加速、降低大模型推理延迟

#开源#推测解码#推理加速#LLM 优化
语言Python
🍴 Forks382
📅 上线2026/1/5
🔄 更新2026/6/28
📥 收录2026/4/16

LightLLM

开源4.1k

github.com/ModelTC/LightLLM

轻量级 LLM 推理服务框架,以轻量设计、易扩展和高速性能著称,支持多模型部署和高并发推理。

🎯部署大语言模型推理服务——在自有服务器上快速搭建轻量高效的 LLM 推理 API。

#开源#python
语言Python
🍴 Forks335
🔄 更新2026/6/27
📥 收录2026/6/9

Lorax

开源3.8k

github.com/predibase/lorax

多 LoRA 推理服务器,可扩展至数千个微调大语言模型,显著降低部署多个微调模型的成本。

🎯部署大量微调模型——一台服务器同时服务上千个 LoRA 微调模型,大幅节省显存和部署成本。

#开源#python
语言Python
🍴 Forks322
🔄 更新2026/6/28
📥 收录2026/6/9

Chitu 赤兔

开源3.1k

github.com/thu-pacman/chitu

清华团队开发的高性能 LLM 推理框架,专注效率、灵活性和可用性,支持多种模型架构。

🎯大模型推理加速——在科研或生产环境中部署高效 LLM 推理服务。

#开源#python
语言Python
🍴 Forks266
🔄 更新2026/6/28
📥 收录2026/6/9

Tensorflow

开源196k+5

github.com/tensorflow/tensorflow

全球最流行的机器学习框架之一,195K+ stars。Google 开源的端到端 ML 平台,支持 TensorFlow、Keras 等多种 API,覆盖深度学习、强化学习、移动端部署等全场景,是 AI 工程师的必备工具

🎯深度学习模型训练、移动端 AI 部署、生产环境 ML 推理服务

#深度学习#deep-neural-networks#分布式#机器学习+1
语言C++
🍴 Forks75,189
🔄 更新2026/6/28
📥 收录2026/4/11