llama.cpp
高性能 C++ LLM 推理引擎,支持在 CPU/GPU 上运行各种开源大语言模型,GGUF 量化格式首创者,本地 AI 生态核心基础设施
🎯适用场景:本地 LLM 部署、端侧 AI 推理、离线 AI 应用、模型量化和格式转换
📥 收录于 2026/6/6
📊 仓库数据
✅ 优点
- •跨平台支持 CPU/GPU/Metal/CUDA
- •GGUF 格式成为行业标准
- •社区活跃、兼容绝大多数开源模型
⚠️ 限制
- •CPU 推理速度受限需大内存
- •GPU 加速需要编译配置
- •非开箱即用需一定技术基础
🔗 相关工具
GPT4All
github.com/nomic-ai/gpt4all
开源本地 LLM 聊天应用和推理框架,提供一键安装的桌面应用和 Python 生态,支持多种开源模型本地运行
🎯本地 AI 聊天、隐私敏感的文档问答、离线 AI 助手
llamafile
github.com/mozilla-ai/llamafile
用单个可执行文件分发和运行大型语言模型,支持跨平台本地推理的轻量级方案,无需复杂环境配置即可快速启动 AI 模型
🎯本地运行 LLM 的轻量级方案
AirLLM
github.com/lyogavin/airllm
仅需单张 4GB GPU 即可运行 70B 大模型推理。采用层卸载和量化技术,让消费级显卡也能跑超大模型,是资源受限场景下大模型推理的破局方案
🎯消费级 GPU 上的大模型推理、低资源 LLM 部署场景
DeepSeek-V3
github.com/deepseek-ai/DeepSeek-V3
深度求索开源 MoE 架构大语言模型,671B 参数但仅激活 37B,推理成本低且性能对标 GPT-4 级别,支持多语言
🎯高性价比 LLM 部署、中文场景优化、MoE 架构研究
Runanywhere SDKs
github.com/RunanywhereAI/runanywhere-sdks
跨平台 AI 推理工具包,支持在 Android/iOS/Web/Flutter 等端侧运行扩散模型、LLM、VLM 等多模态模型,主打本地推理。
🎯移动端/端侧 AI 推理、离线 AI 应用开发、边缘计算场景
MTPLX
github.com/youssofal/MTPLX
轻量级大语言模型推理引擎,优化 KV cache 和计算效率,适合资源受限场景部署。
🎯LLM 推理加速、边缘部署、资源受限场景