llama.cpp

开源LLM 运行时⭐ 90k

高性能 C++ LLM 推理引擎，支持在 CPU/GPU 上运行各种开源大语言模型，GGUF 量化格式首创者，本地 AI 生态核心基础设施

🎯适用场景：本地 LLM 部署、端侧 AI 推理、离线 AI 应用、模型量化和格式转换

#inference#llm#local-ai#gguf#quantization

📥 收录于 2026/6/6

访问工具

📊 仓库数据

Stars90,435

Forks16,500

语言C++

更新2026/6/6

✅ 优点

•跨平台支持 CPU/GPU/Metal/CUDA
•GGUF 格式成为行业标准
•社区活跃、兼容绝大多数开源模型

⚠️ 限制

•CPU 推理速度受限需大内存
•GPU 加速需要编译配置
•非开箱即用需一定技术基础

🔗 相关工具

GPT4All

开源⭐ 73k

github.com/nomic-ai/gpt4all

开源本地 LLM 聊天应用和推理框架，提供一键安装的桌面应用和 Python 生态，支持多种开源模型本地运行

🎯本地 AI 聊天、隐私敏感的文档问答、离线 AI 助手

#chat#local-ai#llm#desktop+1

语言Python

🍴 Forks2,100

🔄 更新2026/6/5

📥 收录2026/6/6

llamafile

开源⭐ 25k↑+4

github.com/mozilla-ai/llamafile

用单个可执行文件分发和运行大型语言模型，支持跨平台本地推理的轻量级方案，无需复杂环境配置即可快速启动 AI 模型

🎯本地运行 LLM 的轻量级方案

#local-llm#inference#cross-platform#gguf

语言C++

🍴 Forks1,372

🔄 更新2026/6/6

📥 收录2026/5/31

AirLLM

开源⭐ 19k↑+24

github.com/lyogavin/airllm

仅需单张 4GB GPU 即可运行 70B 大模型推理。采用层卸载和量化技术，让消费级显卡也能跑超大模型，是资源受限场景下大模型推理的破局方案

🎯消费级 GPU 上的大模型推理、低资源 LLM 部署场景

#edge-inference#quantization#low-vram#llm+1

语言Jupyter Notebook

🍴 Forks2,136

📅 上线2023/9/1

🔄 更新2026/6/6

📥 收录2026/6/4

DeepSeek-V3

开源⭐ 65k

github.com/deepseek-ai/DeepSeek-V3

深度求索开源 MoE 架构大语言模型，671B 参数但仅激活 37B，推理成本低且性能对标 GPT-4 级别，支持多语言

🎯高性价比 LLM 部署、中文场景优化、MoE 架构研究

#moe#llm#open-weight#chinese+1

语言Python

🍴 Forks6,800

🔄 更新2026/6/1

📥 收录2026/6/6

Runanywhere SDKs

开源⭐ 10k

github.com/RunanywhereAI/runanywhere-sdks

跨平台 AI 推理工具包，支持在 Android/iOS/Web/Flutter 等端侧运行扩散模型、LLM、VLM 等多模态模型，主打本地推理。

🎯移动端/端侧 AI 推理、离线 AI 应用开发、边缘计算场景

#on-device-ai#edge#inference#multimodal+2

语言C++

🍴 Forks358

🔄 更新2026/6/6

📥 收录2026/5/31

MTPLX

开源⭐ 687↑+2

github.com/youssofal/MTPLX

轻量级大语言模型推理引擎，优化 KV cache 和计算效率，适合资源受限场景部署。

🎯LLM 推理加速、边缘部署、资源受限场景

#llm

语言Python

🍴 Forks37

🔄 更新2026/6/6

📥 收录2026/6/4

← 浏览全部 874 个工具