IPEX-LLM
Intel 开源的本地 LLM 推理加速库,支持 LLaMA、Mistral、ChatGLM、Qwen、DeepSeek 等主流模型在 Intel CPU/GPU 上高效推理,无需 NVIDIA GPU 即可运行大模型,是低成本 AI 部署的理想方案
🎯适用场景:低成本本地 LLM 推理部署、Intel 硬件上的 AI 服务搭建
📥 收录于 2026/6/1
📊 仓库数据
📈 Stars 变化 ↑2 天 +1· 统计区间 6/10 18:12 → 6/12 07:02(2 天)
✅ 优点
- •无需 NVIDIA GPU,Intel CPU/GPU 即可运行大模型
- •支持主流 LLM 生态(LLaMA/Mistral/Qwen/DeepSeek)
- •低门槛部署 AI 推理服务
⚠️ 限制
- •Intel 生态兼容性受限,非 Intel 硬件无法使用
- •推理速度不及顶级 GPU 方案
- •社区规模相对较小
🔗 相关工具
LLM Action
github.com/liguodongiot/llm-action
生成式 AI 指南,4.9K+ stars。生成式 AI 研究更新、工具和资源的一站式资源库,涵盖最新进展和实用工具
🎯生成式 AI 技术学习、LLM 训练/推理/部署实践参考
WebLLM
github.com/mlc-ai/web-llm
高性能浏览器内 LLM 推理引擎,利用 WebGPU 在浏览器中直接运行 LLM,无需服务器部署
🎯在浏览器中直接运行 LLM 实现零服务器部署
Ml Engineering
github.com/stas00/ml-engineering
由 Hugging Face 工程师 Stas Bekman 编写的机器学习工程开源书籍,系统讲解 GPU 调试、大模型推理优化、分布式训练等工程实践,是 AI 工程师从入门到进阶的实用指南。(17K+ stars)
🎯大模型训练调试、GPU 性能优化、分布式系统架构学习、推理引擎选型参考
Mistral Inference
github.com/mistralai/mistral-inference
Mistral 模型官方推理库,提供优化的模型服务化和推理能力。专为 Mistral 系列大语言模型设计,支持高效推理和部署,是使用 Mistral 模型开发者的核心工具链。
🎯Mistral 模型官方推理库——优化 Mistral 模型的推理和服务,适合使用 Mistral 模型的开发者
Mooncake
github.com/kvcache-ai/Mooncake
Mooncake 是月之暗面 Kimi 的推理服务平台,基于 disaggregation 架构设计,通过 KVCache 分离管理实现大规模 LLM 推理服务的高效部署和弹性扩展
🎯大规模 LLM 推理服务部署、KVCache 管理与优化、高并发推理场景
EAGLE
github.com/SafeAILab/EAGLE
LLM 推理加速技术,包含 EAGLE-1/2/3 三代推测解码实现,可显著提升大语言模型推理速度
🎯LLM 推理加速、推测解码优化、降低推理延迟