Mooncake

开源推理 & 运维 › 推理引擎⭐ 5.9k↑+18

Mooncake 是月之暗面 Kimi 的推理服务平台，基于 disaggregation 架构设计，通过 KVCache 分离管理实现大规模 LLM 推理服务的高效部署和弹性扩展

🎯适用场景：大规模 LLM 推理服务部署、KVCache 管理与优化、高并发推理场景

#disaggregation#推理#kvcache#大语言模型

📥 收录于 2026/6/4

访问工具

📊 仓库数据

Stars5,877

Forks975

语言C++

更新2026/7/18

📈 Stars 变化 ↑1 天 +18· 统计区间 7/17 20:11 → 7/18 23:22（1 天）

✅ 优点

•月之暗面 Kimi 生产验证，大规模实战经验丰富
•disaggregation 架构有效降低推理延迟和成本

⚠️ 限制

•架构较复杂，运维门槛较高
•目前主要面向 C++ 技术栈

🔗 相关工具

Ml Engineering

开源⭐ 18k↑+7

github.com/stas00/ml-engineering

由 Hugging Face 工程师 Stas Bekman 编写的机器学习工程开源书籍，系统讲解 GPU 调试、大模型推理优化、分布式训练等工程实践，是 AI 工程师从入门到进阶的实用指南。（17K+ stars）

🎯大模型训练调试、GPU 性能优化、分布式系统架构学习、推理引擎选型参考

#ai#调试#gpus#推理+1

语言Python

🍴 Forks1,174

📅 上线2020/9/3

🔄 更新2026/7/18

📥 收录2026/5/21

LLM Action

开源⭐ 25k↑+7

github.com/liguodongiot/llm-action

生成式 AI 指南，4.9K+ stars。生成式 AI 研究更新、工具和资源的一站式资源库，涵盖最新进展和实用工具

🎯生成式 AI 技术学习、LLM 训练/推理/部署实践参考

#大语言模型#llm-inference#llm-serving#llm-training+1

语言HTML

🍴 Forks2,825

📅 上线2023/5/23

🔄 更新2026/7/18

📥 收录2026/5/20

Mistral Inference

开源⭐ 11k

github.com/mistralai/mistral-inference

Mistral 模型官方推理库，提供优化的模型服务化和推理能力。专为 Mistral 系列大语言模型设计，支持高效推理和部署，是使用 Mistral 模型开发者的核心工具链。

🎯Mistral 模型官方推理库——优化 Mistral 模型的推理和服务，适合使用 Mistral 模型的开发者

#Mistral#推理优化#官方工具#大语言模型

语言Jupyter Notebook

🍴 Forks1,057

🔄 更新2026/7/18

📥 收录2026/5/27

ONNX Models

开源⭐ 9.7k

github.com/onnx/models

ONNX 官方预训练模型集合，涵盖视觉、NLP、音频等多种模态，所有模型以 ONNX 格式提供，可直接用于跨平台部署。

🎯预训练 ONNX 模型获取——适合需要将模型部署到多种硬件平台的开发者，一次训练多端部署

#ONNX#预训练模型#跨平台#推理

语言Jupyter Notebook

🍴 Forks1,581

🔄 更新2026/7/16

📥 收录2026/5/28

IPEX-LLM

开源⭐ 8.9k↑+1

github.com/intel/ipex-llm

Intel 开源的本地 LLM 推理加速库，支持 LLaMA、Mistral、ChatGLM、Qwen、DeepSeek 等主流模型在 Intel CPU/GPU 上高效推理，无需 NVIDIA GPU 即可运行大模型，是低成本 AI 部署的理想方案

🎯低成本本地 LLM 推理部署、Intel 硬件上的 AI 服务搭建

#本地推理#Intel GPU#CPU 加速#大语言模型

语言Python

🍴 Forks1,429

📅 上线2023/11/15

🔄 更新2026/7/18

📥 收录2026/6/1

EAGLE

开源⭐ 2.5k↑+1

github.com/SafeAILab/EAGLE

LLM 推理加速技术，包含 EAGLE-1/2/3 三代推测解码实现，可显著提升大语言模型推理速度

🎯LLM 推理加速、推测解码优化、降低推理延迟

#大语言模型#Llm-inference#Speculative-decoding

语言Python

🍴 Forks292

🔄 更新2026/7/18

📥 收录2026/6/3

← 浏览全部 1318 个工具