Needle
将 Gemini 工具调用能力蒸馏到 26M 参数微型模型的开源项目,Hacker News 572 票热评。仅需约 50MB 即可在边缘设备运行工具调用,展示了知识蒸馏在 Agent 领域的可行性,适合端侧部署和低带宽场景。
🎯适用场景:本地模型运行与推理服务
📊 仓库数据
📈 Stars 变化 ↑6 小时 +3· 统计区间 6/28 18:12 → 6/29 00:15(6 小时)
✅ 优点
- •仅 26M 参数,模型约 50MB
- •可在边缘设备运行
- •支持标准工具调用协议
- •HN 社区高度认可(572 票)
⚠️ 限制
- •仅蒸馏工具调用能力,非通用对话模型
- •新项目,生态和文档仍在建设中
- •性能与原始 Gemini 有差距
🔗 相关工具
GPT4Free
github.com/xtekky/gpt4free
多模型免费访问平台,66,037+ stars。提供多种大语言模型的免费访问接口,包括 GPT-4、Claude、Gemini 等主流模型的聚合调用方案
🎯本地模型运行与推理服务
omlx
github.com/jundot/omlx
Apple Silicon 专用 LLM 推理服务器,支持连续批处理和 SSD 缓存,从 macOS 菜单栏管理。为 Mac 用户提供了一键式 LLM 本地部署方案,14K+ stars
🎯本地模型运行与推理服务
Sweep
github.com/sweepai/sweep
Sweep AI 编码助手,8.7K+ stars。面向 JetBrains 的 AI 编码助手,支持代码重构、Bug 修复和功能添加
🎯本地模型运行与推理服务
Infinity
github.com/infiniflow/infinity
AI 原生数据库,8.1K+ stars。为 LLM 应用构建的 AI 原生数据库,提供超快的混合搜索能力,支持向量和全文检索
🎯本地模型运行与推理服务
Runanywhere SDKs
github.com/RunanywhereAI/runanywhere-sdks
跨平台 AI 推理工具包,支持在 Android/iOS/Web/Flutter 等端侧运行扩散模型、LLM、VLM 等多模态模型,主打本地推理。
🎯移动端/端侧 AI 推理、离线 AI 应用开发、边缘计算场景
Rapid-MLX
github.com/raullenchai/Rapid-MLX
Apple Silicon 上最快的本地 AI 引擎,比 Ollama 快 4.2 倍,缓存 TTFT 仅 0.08 秒。17 种工具解析器,提示词缓存,推理分离
🎯Mac 本地 LLM 推理、Claude Code/Cursor 加速