lucebox-hub

开源LLM 运行时2.3k↑+1

面向消费级硬件的快速 LLM 推测推理服务器,利用 DFlash 内核和 CUDA 优化在普通 GPU 上实现高性能推理

🎯适用场景:消费级 GPU 上的 LLM 推理、本地大模型部署、推理加速

#Cuda#Cuda-kernels#Dflash#Kernel

📥 收录于 2026/6/3

📊 仓库数据

Stars2,323
Forks216
语言C++
更新2026/6/3

📈 上次抓取以来 ↑+1

优点

  • 支持消费级硬件
  • 推测推理加速明显
  • C++ 高性能实现

⚠️ 限制

  • 配置复杂
  • 需要 CUDA GPU

🔗 相关工具

LMCache

开源8.4k↑+1

github.com/LMCache/LMCache

LLM KV Cache 加速层,通过智能缓存机制显著提升大语言模型推理速度。兼容 vLLM 等主流推理框架,可将重复前缀场景的推理延迟降低数倍。8.3K+ stars。

🎯LLM 推理加速、重复前缀场景优化、多轮对话性能提升

#Amd#Cuda#Fast#Inference
语言Python
🍴 Forks1,240
🔄 更新2026/6/3
📥 收录2026/6/3

aphrodite-engine

开源1.8k↑+2

github.com/dphnAI/aphrodite-engine

大规模 LLM 推理引擎,支持 CUDA 和 Inferentia 等多种硬件后端,提供高性能的分布式推理能力

🎯大规模 LLM 推理部署、多硬件后端支持、高性能 API 服务

#Api-rest#Cuda#Inference-engine#Inferentia
语言C++
🍴 Forks198
🔄 更新2026/6/3
📥 收录2026/6/3

Ollama

开源173k↑+22

github.com/ollama/ollama

本地运行开源大语言模型的最简方案,支持 Llama、Qwen、DeepSeek 等主流模型,一键安装、自动下载模型、提供 OpenAI 兼容 API,是 AI 开发者本地部署的首选工具

🎯生产环境模型推理服务

#本地部署#开源模型#API
语言Go
🍴 Forks16,413
📅 上线2023/6/26
🔄 更新2026/6/3
📥 收录2026/4/13

gpt4free

开源66k↑+1

github.com/xtekky/gpt4free

多模型免费访问平台,66,037+ stars。提供多种大语言模型的免费访问接口,包括 GPT-4、Claude、Gemini 等主流模型的聚合调用方案

🎯本地模型运行与推理服务

#免费模型#API聚合#多模型#开源
语言Python
🍴 Forks13,582
📅 上线2023/3/29
🔄 更新2026/6/3
📥 收录2026/4/20

LocalAI

开源47k↑+7

github.com/mudler/LocalAI

开源本地 AI 引擎,45,607+ stars。完全兼容 OpenAI API 的本地 AI 推理引擎,支持 LLM、语音识别、图像生成等多种模型,数据完全本地处理保护隐私

🎯生产环境模型推理服务、多模态内容理解与生成

#本地部署#隐私保护#OpenAI 兼容#多模型
语言Go
🍴 Forks4,130
📅 上线2023/3/18
🔄 更新2026/6/3
📥 收录2026/4/20

New API

开源37k↑+10

github.com/QuantumNous/new-api

统一的 AI 模型网关,支持聚合和分发各类 LLM API。自动转换为 OpenAI/Claude/Gemini 兼容格式,是 LLM 路由与统一接入的集中式网关方案。36K+ stars。

🎯多 LLM 模型统一接入、API 路由聚合、LLM 服务分发网关

#ai-gateway#llm-routing#openai#claude+1
语言Go
🍴 Forks8,369
🔄 更新2026/6/3
📥 收录2026/6/3