omlx

开源LLM 运行时 › 本地运行时推理 & 运维 › 推理引擎⭐ 18k↑+14

Apple Silicon 专用 LLM 推理服务器，支持连续批处理和 SSD 缓存，从 macOS 菜单栏管理。为 Mac 用户提供了一键式 LLM 本地部署方案，14K+ stars

🎯适用场景：本地模型运行与推理服务

#Apple Silicon#本地推理#macOS#SSD 缓存

📥 收录于 2026/5/19

访问工具

📊 仓库数据

Stars17,719

Forks1,494

语言Python

更新2026/7/10

📈 Stars 变化 ↑12 小时 +14· 统计区间 7/10 12:08 → 7/11 00:11（12 小时）

✅ 优点

•Apple Silicon 原生优化
•连续批处理提升吞吐
•SSD 缓存降低内存压力
•菜单栏一键管理本地模型

⚠️ 限制

•仅支持 Apple Silicon Mac
•大模型仍受内存限制
•生态相比 Ollama 较小

🔗 相关工具

GPT4Free

开源⭐ 66k↑+4

github.com/xtekky/gpt4free

多模型免费访问平台，66,037+ stars。提供多种大语言模型的免费访问接口，包括 GPT-4、Claude、Gemini 等主流模型的聚合调用方案

🎯本地模型运行与推理服务

#免费模型#API聚合#多模型#开源

语言Python

🍴 Forks13,554

📅 上线2023/3/30

🔄 更新2026/7/10

📥 收录2026/4/20

Sweep

免费⭐ 7.7k

github.com/sweepai/sweep

Sweep AI 编码助手，8.7K+ stars。面向 JetBrains 的 AI 编码助手，支持代码重构、Bug 修复和功能添加

🎯本地模型运行与推理服务

#ai#ai-developer#ai-softwar#ai-software+1

语言Jupyter Notebook

🍴 Forks463

📅 上线2023/6/14

🔄 更新2026/7/10

📥 收录2026/5/12

Infinity

免费⭐ 4.6k↑+1

github.com/infiniflow/infinity

AI 原生数据库，8.1K+ stars。为 LLM 应用构建的 AI 原生数据库，提供超快的混合搜索能力，支持向量和全文检索

🎯本地模型运行与推理服务

#ai-native#approximate-nearest-neighbor-search#bm25#cpp20+1

语言C++

🍴 Forks430

📅 上线2022/7/18

🔄 更新2026/7/10

📥 收录2026/5/13

Needle

开源⭐ 2.7k

github.com/cactus-compute/needle

将 Gemini 工具调用能力蒸馏到 26M 参数微型模型的开源项目，Hacker News 572 票热评。仅需约 50MB 即可在边缘设备运行工具调用，展示了知识蒸馏在 Agent 领域的可行性，适合端侧部署和低带宽场景。

🎯本地模型运行与推理服务

#知识蒸馏#工具调用#小模型#边缘计算+1

语言Python

🍴 Forks184

📅 上线2026/5/12

🔄 更新2026/7/10

📥 收录2026/5/14

Rapid-MLX

开源⭐ 3.2k↑+1

github.com/raullenchai/Rapid-MLX

Apple Silicon 上最快的本地 AI 引擎，比 Ollama 快 4.2 倍，缓存 TTFT 仅 0.08 秒。17 种工具解析器，提示词缓存，推理分离

🎯Mac 本地 LLM 推理、Claude Code/Cursor 加速

#Apple Silicon#MLX#本地推理#工具调用+1

语言Python

🍴 Forks381

🔄 更新2026/7/10

📥 收录2026/6/8

Sidekick

开源⭐ 3.3k↑+1

github.com/johnbean393/Sidekick

原生 macOS 应用，可与本地 LLM 聊天并获取文件/文件夹/网站信息，无需安装其他软件，基于 llama.cpp 驱动

🎯Mac 用户与本地 LLM 交互并检索本地文件信息

#macOS#本地LLM#RAG#Swift

语言Swift

🍴 Forks144

🔄 更新2026/7/10

📥 收录2026/6/12

← 浏览全部 1267 个工具