Rapid-MLX

Apple Silicon 上最快的本地 AI 引擎,比 Ollama 快 4.2 倍,缓存 TTFT 仅 0.08 秒。17 种工具解析器,提示词缓存,推理分离

🎯适用场景:Mac 本地 LLM 推理、Claude Code/Cursor 加速

#Apple Silicon#MLX#本地推理#工具调用#快速 TTFT

📥 收录于 2026/6/8

📊 仓库数据

Stars2,715
Forks336
语言Python
更新2026/6/10

📈 Stars 变化 6 小时 +4· 统计区间 6/10 00:13 → 6/10 06:16(6 小时)

优点

  • Apple Silicon 专用优化
  • 比 Ollama 快 4.2 倍
  • 17 种工具解析器
  • 兼容 Claude Code/Cursor

⚠️ 限制

  • 仅限 Apple Silicon
  • MLX 生态相对小众
  • 不支持 CUDA

🔗 相关工具

omlx

开源16k+16

github.com/jundot/omlx

Apple Silicon 专用 LLM 推理服务器,支持连续批处理和 SSD 缓存,从 macOS 菜单栏管理。为 Mac 用户提供了一键式 LLM 本地部署方案,14K+ stars

🎯本地模型运行与推理服务

#Apple Silicon#本地推理#macOS#SSD 缓存
语言Python
🍴 Forks1,392
🔄 更新2026/6/10
📥 收录2026/5/19

Needle

开源2.6k

github.com/cactus-compute/needle

将 Gemini 工具调用能力蒸馏到 26M 参数微型模型的开源项目,Hacker News 572 票热评。仅需约 50MB 即可在边缘设备运行工具调用,展示了知识蒸馏在 Agent 领域的可行性,适合端侧部署和低带宽场景。

🎯本地模型运行与推理服务

#知识蒸馏#工具调用#小模型#边缘计算+1
语言Python
🍴 Forks174
📅 上线2026/5/12
🔄 更新2026/6/9
📥 收录2026/5/14

Ollama

开源174k+18

github.com/ollama/ollama

本地运行开源大语言模型的最简方案,支持 Llama、Qwen、DeepSeek 等主流模型,一键安装、自动下载模型、提供 OpenAI 兼容 API,是 AI 开发者本地部署的首选工具

🎯生产环境模型推理服务

#本地部署#开源模型#API
语言Go
🍴 Forks16,524
📅 上线2023/6/27
🔄 更新2026/6/10
📥 收录2026/4/13

llama.cpp

开源116k+32

github.com/ggml-org/llama.cpp

高性能 C++ LLM 推理引擎,支持在 CPU/GPU 上运行各种开源大语言模型,GGUF 量化格式首创者,本地 AI 生态核心基础设施

🎯本地 LLM 部署、端侧 AI 推理、离线 AI 应用、模型量化和格式转换

#推理#大语言模型#本地 AI#gguf+1
语言C++
🍴 Forks19,387
🔄 更新2026/6/10
📥 收录2026/6/6

DeepSeek-V3

开源104k+2

github.com/deepseek-ai/DeepSeek-V3

深度求索开源 MoE 架构大语言模型,671B 参数但仅激活 37B,推理成本低且性能对标 GPT-4 级别,支持多语言

🎯高性价比 LLM 部署、中文场景优化、MoE 架构研究

#moe#大语言模型#open-weight#chinese+1
语言Python
🍴 Forks16,734
🔄 更新2026/6/10
📥 收录2026/6/6

GPT4All

开源77k+1

github.com/nomic-ai/gpt4all

开源本地 LLM 聊天应用和推理框架,提供一键安装的桌面应用和 Python 生态,支持多种开源模型本地运行

🎯本地 AI 聊天、隐私敏感的文档问答、离线 AI 助手

#chat#本地 AI#大语言模型#桌面端+1
语言C++
🍴 Forks8,324
🔄 更新2026/6/10
📥 收录2026/6/6