llm_note
LLM Note 是大语言模型学习笔记,涵盖模型推理、Transformer 架构解析和 LLM 框架代码分析。包含 CUDA 编程、KV Cache 优化等实战内容。
🎯适用场景:LLM 学习资源、模型推理优化、Transformer 架构学习
📥 收录于 2026/6/3
📊 仓库数据
✅ 优点
- •系统性学习笔记
- •涵盖 CUDA 和 KV Cache 实战
- •适合开发者入门
⚠️ 限制
- •笔记质量参差不齐
- •部分内容为中文需翻译
🔗 相关工具
bitsandbytes
github.com/bitsandbytes-foundation/bitsandbytes
PyTorch k-bit 量化库,让大语言模型可在消费级 GPU 上运行。支持 4-bit/8-bit 量化、QLoRA 微调,是本地部署大模型的核心工具。8.2K+ stars。
🎯大模型消费级 GPU 部署、QLoRA 微调、内存优化推理
EAGLE
github.com/SafeAILab/EAGLE
LLM 推理加速技术,包含 EAGLE-1/2/3 三代推测解码实现,可显著提升大语言模型推理速度
🎯LLM 推理加速、推测解码优化、降低推理延迟
kvpress
github.com/NVIDIA/kvpress
KVPress 是 NVIDIA 开源的 KV Cache 压缩工具,通过智能压缩技术减少大语言模型推理时的显存占用。支持多种压缩算法,显著提升长上下文处理能力。
🎯LLM 推理优化、KV Cache 压缩、长上下文处理
Ollama
github.com/ollama/ollama
本地运行开源大语言模型的最简方案,支持 Llama、Qwen、DeepSeek 等主流模型,一键安装、自动下载模型、提供 OpenAI 兼容 API,是 AI 开发者本地部署的首选工具
🎯生产环境模型推理服务
gpt4free
github.com/xtekky/gpt4free
多模型免费访问平台,66,037+ stars。提供多种大语言模型的免费访问接口,包括 GPT-4、Claude、Gemini 等主流模型的聚合调用方案
🎯本地模型运行与推理服务
LocalAI
github.com/mudler/LocalAI
开源本地 AI 引擎,45,607+ stars。完全兼容 OpenAI API 的本地 AI 推理引擎,支持 LLM、语音识别、图像生成等多种模型,数据完全本地处理保护隐私
🎯生产环境模型推理服务、多模态内容理解与生成