Apple Silicon 专用 LLM 推理服务器,支持连续批处理和 SSD 缓存,从 macOS 菜单栏管理。为 Mac 用户提供了一键式 LLM 本地部署方案,14K+ stars

🎯适用场景:本地模型运行与推理服务

#Apple Silicon#本地推理#macOS#SSD 缓存

📥 收录于 2026/5/19

📊 仓库数据

Stars16,426
Forks1,399
语言Python
更新2026/6/12

📈 Stars 变化 1 天 +58· 统计区间 6/11 00:28 → 6/12 06:54(1 天)

优点

  • Apple Silicon 原生优化
  • 连续批处理提升吞吐
  • SSD 缓存降低内存压力
  • 菜单栏一键管理本地模型

⚠️ 限制

  • 仅支持 Apple Silicon Mac
  • 大模型仍受内存限制
  • 生态相比 Ollama 较小

🔗 相关工具

GPT4Free

开源66k+14

github.com/xtekky/gpt4free

多模型免费访问平台,66,037+ stars。提供多种大语言模型的免费访问接口,包括 GPT-4、Claude、Gemini 等主流模型的聚合调用方案

🎯本地模型运行与推理服务

#免费模型#API聚合#多模型#开源
语言Python
🍴 Forks13,573
📅 上线2023/3/30
🔄 更新2026/6/12
📥 收录2026/4/20

Sweep

免费7.7k-1

github.com/sweepai/sweep

Sweep AI 编码助手,8.7K+ stars。面向 JetBrains 的 AI 编码助手,支持代码重构、Bug 修复和功能添加

🎯本地模型运行与推理服务

#ai#ai-developer#ai-softwar#ai-software+1
语言Jupyter Notebook
🍴 Forks462
📅 上线2023/6/14
🔄 更新2026/6/11
📥 收录2026/5/12

Infinity

免费5.4k

github.com/infiniflow/infinity

AI 原生数据库,8.1K+ stars。为 LLM 应用构建的 AI 原生数据库,提供超快的混合搜索能力,支持向量和全文检索

🎯本地模型运行与推理服务

#ai-native#approximate-nearest-neighbor-search#bm25#cpp20+1
语言Java
🍴 Forks496
📅 上线2022/7/18
🔄 更新2026/6/12
📥 收录2026/5/13

Needle

开源2.6k+2

github.com/cactus-compute/needle

将 Gemini 工具调用能力蒸馏到 26M 参数微型模型的开源项目,Hacker News 572 票热评。仅需约 50MB 即可在边缘设备运行工具调用,展示了知识蒸馏在 Agent 领域的可行性,适合端侧部署和低带宽场景。

🎯本地模型运行与推理服务

#知识蒸馏#工具调用#小模型#边缘计算+1
语言Python
🍴 Forks175
📅 上线2026/5/12
🔄 更新2026/6/12
📥 收录2026/5/14

Rapid-MLX

开源2.7k+20

github.com/raullenchai/Rapid-MLX

Apple Silicon 上最快的本地 AI 引擎,比 Ollama 快 4.2 倍,缓存 TTFT 仅 0.08 秒。17 种工具解析器,提示词缓存,推理分离

🎯Mac 本地 LLM 推理、Claude Code/Cursor 加速

#Apple Silicon#MLX#本地推理#工具调用+1
语言Python
🍴 Forks338
🔄 更新2026/6/12
📥 收录2026/6/8

Ollama

开源174k+166

github.com/ollama/ollama

本地运行开源大语言模型的最简方案,支持 Llama、Qwen、DeepSeek 等主流模型,一键安装、自动下载模型、提供 OpenAI 兼容 API,是 AI 开发者本地部署的首选工具

🎯生产环境模型推理服务

#本地部署#开源模型#API
语言Go
🍴 Forks16,562
📅 上线2023/6/27
🔄 更新2026/6/12
📥 收录2026/4/13