LMCache
LLM KV Cache 加速层,通过智能缓存机制显著提升大语言模型推理速度。兼容 vLLM 等主流推理框架,可将重复前缀场景的推理延迟降低数倍。8.3K+ stars。
🎯适用场景:LLM 推理加速、重复前缀场景优化、多轮对话性能提升
📥 收录于 2026/6/3
📊 仓库数据
📈 上次抓取以来 ↑+1 ⭐
✅ 优点
- •显著提升推理吞吐
- •兼容主流推理框架
- •对重复前缀场景效果显著
⚠️ 限制
- •主要优化重复前缀场景
- •需要额外内存开销
- •配置调优有一定门槛
🔗 相关工具
lucebox-hub
github.com/Luce-Org/lucebox-hub
面向消费级硬件的快速 LLM 推测推理服务器,利用 DFlash 内核和 CUDA 优化在普通 GPU 上实现高性能推理
🎯消费级 GPU 上的 LLM 推理、本地大模型部署、推理加速
aphrodite-engine
github.com/dphnAI/aphrodite-engine
大规模 LLM 推理引擎,支持 CUDA 和 Inferentia 等多种硬件后端,提供高性能的分布式推理能力
🎯大规模 LLM 推理部署、多硬件后端支持、高性能 API 服务
Ollama
github.com/ollama/ollama
本地运行开源大语言模型的最简方案,支持 Llama、Qwen、DeepSeek 等主流模型,一键安装、自动下载模型、提供 OpenAI 兼容 API,是 AI 开发者本地部署的首选工具
🎯生产环境模型推理服务
gpt4free
github.com/xtekky/gpt4free
多模型免费访问平台,66,037+ stars。提供多种大语言模型的免费访问接口,包括 GPT-4、Claude、Gemini 等主流模型的聚合调用方案
🎯本地模型运行与推理服务
LocalAI
github.com/mudler/LocalAI
开源本地 AI 引擎,45,607+ stars。完全兼容 OpenAI API 的本地 AI 推理引擎,支持 LLM、语音识别、图像生成等多种模型,数据完全本地处理保护隐私
🎯生产环境模型推理服务、多模态内容理解与生成
New API
github.com/QuantumNous/new-api
统一的 AI 模型网关,支持聚合和分发各类 LLM API。自动转换为 OpenAI/Claude/Gemini 兼容格式,是 LLM 路由与统一接入的集中式网关方案。36K+ stars。
🎯多 LLM 模型统一接入、API 路由聚合、LLM 服务分发网关