Infinity

免费LLM 运行时 › 本地运行时推理 & 运维 › 推理引擎⭐ 4.6k

AI 原生数据库，8.1K+ stars。为 LLM 应用构建的 AI 原生数据库，提供超快的混合搜索能力，支持向量和全文检索

🎯适用场景：本地模型运行与推理服务

#ai-native#approximate-nearest-neighbor-search#bm25#cpp20#cpp20-modules

📥 收录于 2026/5/13

访问工具

📊 仓库数据

Stars4,585

Forks430

语言C++

上线2022/7/18

更新2026/6/27

✅ 优点

•4.5K+ stars
•开源免费
•支持离线本地部署

⚠️ 限制

•需要 C/C++ 编译环境
•硬件要求因模型而异
•文档与社区支持因项目而异

🔗 相关工具

GPT4Free

开源⭐ 66k↓-1

github.com/xtekky/gpt4free

多模型免费访问平台，66,037+ stars。提供多种大语言模型的免费访问接口，包括 GPT-4、Claude、Gemini 等主流模型的聚合调用方案

🎯本地模型运行与推理服务

#免费模型#API聚合#多模型#开源

语言Python

🍴 Forks13,570

📅 上线2023/3/30

🔄 更新2026/6/28

📥 收录2026/4/20

omlx

开源⭐ 17k↑+15

github.com/jundot/omlx

Apple Silicon 专用 LLM 推理服务器，支持连续批处理和 SSD 缓存，从 macOS 菜单栏管理。为 Mac 用户提供了一键式 LLM 本地部署方案，14K+ stars

🎯本地模型运行与推理服务

#Apple Silicon#本地推理#macOS#SSD 缓存

语言Python

🍴 Forks1,460

🔄 更新2026/6/29

📥 收录2026/5/19

Sweep

免费⭐ 7.7k

github.com/sweepai/sweep

Sweep AI 编码助手，8.7K+ stars。面向 JetBrains 的 AI 编码助手，支持代码重构、Bug 修复和功能添加

🎯本地模型运行与推理服务

#ai#ai-developer#ai-softwar#ai-software+1

语言Jupyter Notebook

🍴 Forks463

📅 上线2023/6/14

🔄 更新2026/6/27

📥 收录2026/5/12

Needle

开源⭐ 2.6k↑+3

github.com/cactus-compute/needle

将 Gemini 工具调用能力蒸馏到 26M 参数微型模型的开源项目，Hacker News 572 票热评。仅需约 50MB 即可在边缘设备运行工具调用，展示了知识蒸馏在 Agent 领域的可行性，适合端侧部署和低带宽场景。

🎯本地模型运行与推理服务

#知识蒸馏#工具调用#小模型#边缘计算+1

语言Python

🍴 Forks179

📅 上线2026/5/12

🔄 更新2026/6/28

📥 收录2026/5/14

Ollama

开源⭐ 175k↑+17

github.com/ollama/ollama

本地运行开源大语言模型的最简方案，支持 Llama、Qwen、DeepSeek 等主流模型，一键安装、自动下载模型、提供 OpenAI 兼容 API，是 AI 开发者本地部署的首选工具

🎯生产环境模型推理服务

#本地部署#开源模型#API

语言Go

🍴 Forks16,758

📅 上线2023/6/27

🔄 更新2026/6/29

📥 收录2026/4/13

llama.cpp

开源⭐ 118k↑+38

github.com/ggml-org/llama.cpp

高性能 C++ LLM 推理引擎，支持在 CPU/GPU 上运行各种开源大语言模型，GGUF 量化格式首创者，本地 AI 生态核心基础设施

🎯本地 LLM 部署、端侧 AI 推理、离线 AI 应用、模型量化和格式转换

#推理#大语言模型#本地 AI#gguf+1

语言C++

🍴 Forks20,018

🔄 更新2026/6/28

📥 收录2026/6/6

← 浏览全部 1238 个工具