llamafile

开源LLM 运行时 › 本地运行时⭐ 25k↑+10

用单个可执行文件分发和运行大型语言模型，支持跨平台本地推理的轻量级方案，无需复杂环境配置即可快速启动 AI 模型

🎯适用场景：本地运行 LLM 的轻量级方案

#本地 LLM#推理#跨平台#gguf

📥 收录于 2026/5/31

访问工具

📊 仓库数据

Stars25,401

Forks1,596

语言C++

协议Apache-2.0

更新2026/7/14

📈 Stars 变化 ↑13 小时 +10· 统计区间 7/13 23:54 → 7/14 13:02（13 小时）

✅ 优点

•单个文件即可运行
•跨平台支持

⚠️ 限制

•模型加载速度较慢
•不支持所有模型格式

🔗 相关工具

llama.cpp

开源⭐ 120k↑+43

github.com/ggml-org/llama.cpp

高性能 C++ LLM 推理引擎，支持在 CPU/GPU 上运行各种开源大语言模型，GGUF 量化格式首创者，本地 AI 生态核心基础设施

🎯本地 LLM 部署、端侧 AI 推理、离线 AI 应用、模型量化和格式转换

#推理#大语言模型#本地 AI#gguf+1

语言C++

🍴 Forks20,562

🔄 更新2026/7/14

📥 收录2026/6/6

Runanywhere SDKs

开源⭐ 10k↓-4

github.com/RunanywhereAI/runanywhere-sdks

跨平台 AI 推理工具包，支持在 Android/iOS/Web/Flutter 等端侧运行扩散模型、LLM、VLM 等多模态模型，主打本地推理。

🎯移动端/端侧 AI 推理、离线 AI 应用开发、边缘计算场景

#端侧 AI#边缘计算#推理#多模态+1

语言C++

🍴 Forks362

🔄 更新2026/7/14

📥 收录2026/5/31

node-llama-cpp

开源⭐ 2.1k↑+1

github.com/withcatai/node-llama-cpp

基于 llama.cpp 的 Node.js 本地 AI 模型运行库，支持 JSON schema 输出约束、函数调用和 GPU 加速

🎯Node.js 项目需要本地运行 LLM 时的高性能方案

#llama.cpp#node.js#local-ai#gguf+2

语言TypeScript

🍴 Forks204

🔄 更新2026/7/14

📥 收录2026/6/9

kvpress

开源⭐ 1.1k

github.com/NVIDIA/kvpress

KVPress 是 NVIDIA 开源的 KV Cache 压缩工具，通过智能压缩技术减少大语言模型推理时的显存占用。支持多种压缩算法，显著提升长上下文处理能力。

🎯LLM 推理优化、KV Cache 压缩、长上下文处理

#推理#KV 缓存#Kv-cache-compression#大语言模型

语言Python

🍴 Forks159

🔄 更新2026/7/13

📥 收录2026/6/3

Ollama

开源⭐ 176k↑+26

github.com/ollama/ollama

本地运行开源大语言模型的最简方案，支持 Llama、Qwen、DeepSeek 等主流模型，一键安装、自动下载模型、提供 OpenAI 兼容 API，是 AI 开发者本地部署的首选工具

🎯生产环境模型推理服务

#本地部署#开源模型#API

语言Go

🍴 Forks16,954

📅 上线2023/6/27

🔄 更新2026/7/14

📥 收录2026/4/13

DeepSeek-V3

开源⭐ 104k↑+3

github.com/deepseek-ai/DeepSeek-V3

深度求索开源 MoE 架构大语言模型，671B 参数但仅激活 37B，推理成本低且性能对标 GPT-4 级别，支持多语言

🎯高性价比 LLM 部署、中文场景优化、MoE 架构研究

#moe#大语言模型#open-weight#chinese+1

语言Python

🍴 Forks16,723

🔄 更新2026/7/14

📥 收录2026/6/6

← 浏览全部 1285 个工具