LiteRT-LM

开源LLM 运行时5.3k

Google AI Edge 出品的端侧 LLM 推理框架——在移动和边缘设备上高性能部署大语言模型。5.3K+ stars,是 Google 在端侧 AI 领域的正式产品级方案

🎯适用场景:移动端 AI 应用、离线 LLM 推理、边缘设备智能交互

#端侧 AI#Google#LLM 推理#移动设备#边缘计算

📥 收录于 2026/6/2

📊 仓库数据

Stars5,300
Forks536
语言C++
协议Apache-2.0
更新2026/6/1

优点

  • Google 官方出品质量有保障
  • 端侧部署数据隐私安全
  • 针对移动设备深度优化
  • Apache 2.0 开源可商用

⚠️ 限制

  • 主要面向移动和边缘设备
  • 模型能力受限于端侧资源
  • 生态不如 Ollama 成熟

🔗 相关工具

MNN

开源15k↑+11

github.com/alibaba/MNN

阿里巴巴端侧 AI 推理引擎,15K+ stars。轻量高效的移动端和边缘端推理引擎,支持 LLM 端侧部署,在 ARM、RISC-V 等平台上提供极致性能

🎯手机、IoT 等设备上的轻量模型与 LLM 端侧推理部署

#端侧 AI#推理引擎#嵌入式#LLM
语言C++
🍴 Forks2,334
🔄 更新2026/6/1
📥 收录2026/5/27

ExecuTorch

开源4.7k↑+1

github.com/pytorch/executorch

PyTorch 端侧 AI 推理引擎,4.6K+ stars。覆盖移动设备、嵌入式和边缘端的 PyTorch 端侧推理方案,支持模型量化、编译和优化部署

🎯将 PyTorch 模型编译部署到手机与嵌入式设备的端侧推理

#端侧 AI#PyTorch#嵌入式#移动端
语言Python
🍴 Forks1,014
🔄 更新2026/6/1
📥 收录2026/5/27

Needle

开源2.5k

github.com/cactus-compute/needle

将 Gemini 工具调用能力蒸馏到 26M 参数微型模型的开源项目,Hacker News 572 票热评。仅需约 50MB 即可在边缘设备运行工具调用,展示了知识蒸馏在 Agent 领域的可行性,适合端侧部署和低带宽场景。

🎯本地模型运行与推理服务

#知识蒸馏#工具调用#小模型#边缘计算+1
语言Python
🍴 Forks170
📅 上线2026/5/12
🔄 更新2026/6/1
📥 收录2026/5/14

Ollama

开源173k↑+24

github.com/ollama/ollama

本地运行开源大语言模型的最简方案,支持 Llama、Qwen、DeepSeek 等主流模型,一键安装、自动下载模型、提供 OpenAI 兼容 API,是 AI 开发者本地部署的首选工具

🎯生产环境模型推理服务

#本地部署#开源模型#API
语言Go
🍴 Forks16,388
📅 上线2023/6/26
🔄 更新2026/6/1
📥 收录2026/4/13

gpt4free

开源66k↑+2

github.com/xtekky/gpt4free

多模型免费访问平台,66,037+ stars。提供多种大语言模型的免费访问接口,包括 GPT-4、Claude、Gemini 等主流模型的聚合调用方案

🎯本地模型运行与推理服务

#免费模型#API聚合#多模型#开源
语言Python
🍴 Forks13,585
📅 上线2023/3/29
🔄 更新2026/6/1
📥 收录2026/4/20

LocalAI

开源47k↑+5

github.com/mudler/LocalAI

开源本地 AI 引擎,45,607+ stars。完全兼容 OpenAI API 的本地 AI 推理引擎,支持 LLM、语音识别、图像生成等多种模型,数据完全本地处理保护隐私

🎯生产环境模型推理服务、多模态内容理解与生成

#本地部署#隐私保护#OpenAI 兼容#多模型
语言Go
🍴 Forks4,127
📅 上线2023/3/18
🔄 更新2026/6/1
📥 收录2026/4/20