MTPLX

开源LLM 运行时663

轻量级大语言模型推理引擎,优化 KV cache 和计算效率,适合资源受限场景部署。

🎯适用场景:LLM 推理加速、边缘部署、资源受限场景

#llm

📥 收录于 2026/6/4

📊 仓库数据

Stars663
Forks38
语言Python
更新2026/6/4

优点

  • 652 stars
  • 轻量高效
  • KV cache 优化

⚠️ 限制

  • 生态较小
  • 仅支持部分模型

🔗 相关工具

AirLLM

开源19k↑+163

github.com/lyogavin/airllm

仅需单张 4GB GPU 即可运行 70B 大模型推理。采用层卸载和量化技术,让消费级显卡也能跑超大模型,是资源受限场景下大模型推理的破局方案

🎯消费级 GPU 上的大模型推理、低资源 LLM 部署场景

#edge-inference#quantization#low-vram#llm+1
语言Jupyter Notebook
🍴 Forks2,093
📅 上线2023/9/1
🔄 更新2026/6/4
📥 收录2026/6/4

Mixture of Recursions

开源574

github.com/raymin0223/mixture_of_recursions

结合自适应计算和早期退出的递归 Transformer 架构,优化 LLM 推理效率和精度。

🎯LLM 架构研究、推理效率优化、Transformer 改进

#llm
语言Python
🍴 Forks83
🔄 更新2026/5/29
📥 收录2026/6/4

Ollama

开源173k↑+26

github.com/ollama/ollama

本地运行开源大语言模型的最简方案,支持 Llama、Qwen、DeepSeek 等主流模型,一键安装、自动下载模型、提供 OpenAI 兼容 API,是 AI 开发者本地部署的首选工具

🎯生产环境模型推理服务

#本地部署#开源模型#API
语言Go
🍴 Forks16,429
📅 上线2023/6/26
🔄 更新2026/6/4
📥 收录2026/4/13

gpt4free

开源66k↑+1

github.com/xtekky/gpt4free

多模型免费访问平台,66,037+ stars。提供多种大语言模型的免费访问接口,包括 GPT-4、Claude、Gemini 等主流模型的聚合调用方案

🎯本地模型运行与推理服务

#免费模型#API聚合#多模型#开源
语言Python
🍴 Forks13,580
📅 上线2023/3/29
🔄 更新2026/6/4
📥 收录2026/4/20

LocalAI

开源47k↑+8

github.com/mudler/LocalAI

开源本地 AI 引擎,45,607+ stars。完全兼容 OpenAI API 的本地 AI 推理引擎,支持 LLM、语音识别、图像生成等多种模型,数据完全本地处理保护隐私

🎯生产环境模型推理服务、多模态内容理解与生成

#本地部署#隐私保护#OpenAI 兼容#多模型
语言Go
🍴 Forks4,133
📅 上线2023/3/18
🔄 更新2026/6/4
📥 收录2026/4/20

New API

开源37k↑+87

github.com/QuantumNous/new-api

统一的 AI 模型网关,支持聚合和分发各类 LLM API。自动转换为 OpenAI/Claude/Gemini 兼容格式,是 LLM 路由与统一接入的集中式网关方案。36K+ stars。

🎯多 LLM 模型统一接入、API 路由聚合、LLM 服务分发网关

#ai-gateway#llm-routing#openai#claude+1
语言Go
🍴 Forks8,400
🔄 更新2026/6/4
📥 收录2026/6/3