Rapid-MLX

开源LLM 运行时 › 本地运行时⭐ 3.4k↑+12

Apple Silicon 上最快的本地 AI 引擎，比 Ollama 快 4.2 倍，缓存 TTFT 仅 0.08 秒。17 种工具解析器，提示词缓存，推理分离

🎯适用场景：Mac 本地 LLM 推理、Claude Code/Cursor 加速

#Apple Silicon#MLX#本地推理#工具调用#快速 TTFT

📥 收录于 2026/6/8

访问工具

📊 仓库数据

Stars3,383

Forks397

语言Python

更新2026/7/24

📈 Stars 变化 ↑11 小时 +12· 统计区间 7/24 12:26 → 7/24 23:22（11 小时）

✅ 优点

•Apple Silicon 专用优化
•比 Ollama 快 4.2 倍
•17 种工具解析器
•兼容 Claude Code/Cursor

⚠️ 限制

•仅限 Apple Silicon
•MLX 生态相对小众
•不支持 CUDA

🔗 相关工具

omlx

开源⭐ 18k↑+14

github.com/jundot/omlx

Apple Silicon 专用 LLM 推理服务器，支持连续批处理和 SSD 缓存，从 macOS 菜单栏管理。为 Mac 用户提供了一键式 LLM 本地部署方案，14K+ stars

🎯本地模型运行与推理服务

#Apple Silicon#本地推理#macOS#SSD 缓存

Needle

开源⭐ 3.3k↑+5

github.com/cactus-compute/needle

将 Gemini 工具调用能力蒸馏到 26M 参数微型模型的开源项目，Hacker News 572 票热评。仅需约 50MB 即可在边缘设备运行工具调用，展示了知识蒸馏在 Agent 领域的可行性，适合端侧部署和低带宽场景。

🎯本地模型运行与推理服务

#知识蒸馏#工具调用#小模型#边缘计算+1

LM Studio Bionic

免费

lmstudio.ai/blog/lm-studio-bionic

本地开源模型的 AI Agent 运行时。混合推理架构（Bionic Inference）支持工具调用、多轮对话和上下文管理，将本地模型转化为完整的 Agent 运行环境。

🎯本地开源模型 Agent 化——工具调用、多轮对话、上下文管理

#本地 AI#Agent 运行时#开源模型#工具调用+1

📥 收录2026/7/18

访问工具 →

Ollama

开源⭐ 177k↑+35

github.com/ollama/ollama

本地运行开源大语言模型的最简方案，支持 Llama、Qwen、DeepSeek 等主流模型，一键安装、自动下载模型、提供 OpenAI 兼容 API，是 AI 开发者本地部署的首选工具

🎯生产环境模型推理服务

llama.cpp

开源⭐ 121k↑+56

github.com/ggml-org/llama.cpp

高性能 C++ LLM 推理引擎，支持在 CPU/GPU 上运行各种开源大语言模型，GGUF 量化格式首创者，本地 AI 生态核心基础设施

🎯本地 LLM 部署、端侧 AI 推理、离线 AI 应用、模型量化和格式转换

#推理#大语言模型#本地 AI#gguf+1

DeepSeek-V3

开源⭐ 104k↑+4

github.com/deepseek-ai/DeepSeek-V3

深度求索开源 MoE 架构大语言模型，671B 参数但仅激活 37B，推理成本低且性能对标 GPT-4 级别，支持多语言

🎯高性价比 LLM 部署、中文场景优化、MoE 架构研究

#moe#大语言模型#open-weight#chinese+1