Nexa SDK

开源LLM 运行时8.1k

跨平台 LLM/VLM 推理引擎——在 GPU、NPU 和 CPU 上运行前沿模型。零日模型支持、量化优化、多硬件后端,是端侧 AI 部署的统一推理方案

🎯适用场景:端侧 LLM/VLM 推理运行时,适用于手机、IoT 设备等边缘部署场景

#端侧推理#NPU#量化#跨平台

📥 收录于 2026/5/26

📊 仓库数据

Stars8,059
语言Python
上线2024/6/1

优点

  • GPU/NPU/CPU 多后端支持
  • 零日模型快速适配
  • 量化优化降低资源需求
  • Qualcomm 官方维护

⚠️ 限制

  • Qualcomm 硬件生态绑定较强
  • 文档和教程较少
  • 非 Qualcomm 平台支持有限

🔗 相关工具

Ollama

开源172k↑+22

github.com/ollama/ollama

本地运行开源大语言模型的最简方案,支持 Llama、Qwen、DeepSeek 等主流模型,一键安装、自动下载模型、提供 OpenAI 兼容 API,是 AI 开发者本地部署的首选工具

🎯生产环境模型推理服务

#本地部署#开源模型#API
语言Go
🍴 Forks16,288
📅 上线2023/6/26
🔄 更新2026/5/25
📥 收录2026/4/13

gpt4free

开源66k1

github.com/xtekky/gpt4free

多模型免费访问平台,66,037+ stars。提供多种大语言模型的免费访问接口,包括 GPT-4、Claude、Gemini 等主流模型的聚合调用方案

🎯本地模型运行与推理服务

#免费模型#API聚合#多模型#开源
语言Python
🍴 Forks13,590
📅 上线2023/3/29
🔄 更新2026/5/25
📥 收录2026/4/20

LocalAI

开源46k1

github.com/mudler/LocalAI

开源本地 AI 引擎,45,607+ stars。完全兼容 OpenAI API 的本地 AI 推理引擎,支持 LLM、语音识别、图像生成等多种模型,数据完全本地处理保护隐私

🎯生产环境模型推理服务、多模态内容理解与生成

#本地部署#隐私保护#OpenAI 兼容#多模型
语言Go
🍴 Forks4,100
📅 上线2023/3/18
🔄 更新2026/5/25
📥 收录2026/4/20

Kronos

开源26k↑+40

github.com/shiyu-coder/Kronos

面向金融市场的 Foundation Model,将金融市场语言建模为序列预测问题。支持金融时间序列分析、市场趋势预测和量化交易策略生成。由 shiyu-coder 团队开发,GitHub 20K+ 星,周增 3200+ 星,是金融 AI 领域增长最快的项目之一。采用类 Transformer 架构处理结构化金融数据,可对接主流交易 API。

🎯金融时间序列预测、量化交易策略生成、市场趋势分析

#金融 AI#时间序列预测#量化交易#Foundation Model+1
语言Python
🍴 Forks4,516
📅 上线2025/10/8
🔄 更新2026/5/25
📥 收录2026/4/21

omlx

开源15k↑+20

github.com/jundot/omlx

Apple Silicon 专用 LLM 推理服务器,支持连续批处理和 SSD 缓存,从 macOS 菜单栏管理。为 Mac 用户提供了一键式 LLM 本地部署方案,14K+ stars

🎯本地模型运行与推理服务

#Apple Silicon#本地推理#macOS#SSD 缓存
语言Python
🍴 Forks1,277
🔄 更新2026/5/25
📥 收录2026/5/19

LLM CLI

免费12k

github.com/simonw/llm

Simon Willison 出品的命令行 LLM 工具,支持 OpenAI、Anthropic、Google、LocalAI 等数十种模型。最新版本 0.31(2026 年 4 月)新增 GPT-5.5 支持、verbosity 文本详细度参数和 image_detail 图像细节参数。是 AI 开发者在终端中快速测试不同模型、比较输出的首选工具。MIT 协议开源,21K+ stars,社区活跃度高。

🎯生产环境模型推理服务

#CLI 工具#多模型#终端#OpenAI+3
语言Python
🍴 Forks858
🔄 更新2026/5/25
📥 收录2026/4/27