kvpress

开源LLM 运行时1.1k

KVPress 是 NVIDIA 开源的 KV Cache 压缩工具,通过智能压缩技术减少大语言模型推理时的显存占用。支持多种压缩算法,显著提升长上下文处理能力。

🎯适用场景:LLM 推理优化、KV Cache 压缩、长上下文处理

#Inference#Kv-cache#Kv-cache-compression#Large-language-models

📥 收录于 2026/6/3

📊 仓库数据

Stars1,102
Forks147
语言Python
更新2026/6/3

优点

  • NVIDIA 官方出品质量高
  • 显著提升推理吞吐量
  • 多种压缩算法可选

⚠️ 限制

  • 压缩可能影响模型精度
  • 仅支持部分模型架构

🔗 相关工具

LMCache

开源8.4k↑+4

github.com/LMCache/LMCache

LLM KV Cache 加速层,通过智能缓存机制显著提升大语言模型推理速度。兼容 vLLM 等主流推理框架,可将重复前缀场景的推理延迟降低数倍。8.3K+ stars。

🎯LLM 推理加速、重复前缀场景优化、多轮对话性能提升

#Amd#Cuda#Fast#Inference
语言Python
🍴 Forks1,242
🔄 更新2026/6/4
📥 收录2026/6/3

EAGLE

开源2.4k↑+2

github.com/SafeAILab/EAGLE

LLM 推理加速技术,包含 EAGLE-1/2/3 三代推测解码实现,可显著提升大语言模型推理速度

🎯LLM 推理加速、推测解码优化、降低推理延迟

#Large-language-models#Llm-inference#Speculative-decoding
语言Python
🍴 Forks284
🔄 更新2026/6/4
📥 收录2026/6/3

llm_note

开源881

github.com/harleyszhang/llm_note

LLM Note 是大语言模型学习笔记,涵盖模型推理、Transformer 架构解析和 LLM 框架代码分析。包含 CUDA 编程、KV Cache 优化等实战内容。

🎯LLM 学习资源、模型推理优化、Transformer 架构学习

#Cuda-programming#Kv-cache#Llm#Llm-inference
语言Python
🍴 Forks87
🔄 更新2026/5/20
📥 收录2026/6/3

Ollama

开源173k↑+26

github.com/ollama/ollama

本地运行开源大语言模型的最简方案,支持 Llama、Qwen、DeepSeek 等主流模型,一键安装、自动下载模型、提供 OpenAI 兼容 API,是 AI 开发者本地部署的首选工具

🎯生产环境模型推理服务

#本地部署#开源模型#API
语言Go
🍴 Forks16,429
📅 上线2023/6/26
🔄 更新2026/6/4
📥 收录2026/4/13

gpt4free

开源66k↑+1

github.com/xtekky/gpt4free

多模型免费访问平台,66,037+ stars。提供多种大语言模型的免费访问接口,包括 GPT-4、Claude、Gemini 等主流模型的聚合调用方案

🎯本地模型运行与推理服务

#免费模型#API聚合#多模型#开源
语言Python
🍴 Forks13,580
📅 上线2023/3/29
🔄 更新2026/6/4
📥 收录2026/4/20

LocalAI

开源47k↑+8

github.com/mudler/LocalAI

开源本地 AI 引擎,45,607+ stars。完全兼容 OpenAI API 的本地 AI 推理引擎,支持 LLM、语音识别、图像生成等多种模型,数据完全本地处理保护隐私

🎯生产环境模型推理服务、多模态内容理解与生成

#本地部署#隐私保护#OpenAI 兼容#多模型
语言Go
🍴 Forks4,133
📅 上线2023/3/18
🔄 更新2026/6/4
📥 收录2026/4/20