DeepSeek-V3

开源LLM 运行时 › 本地运行时⭐ 104k↑+6

深度求索开源 MoE 架构大语言模型，671B 参数但仅激活 37B，推理成本低且性能对标 GPT-4 级别，支持多语言

🎯适用场景：高性价比 LLM 部署、中文场景优化、MoE 架构研究

#moe#大语言模型#open-weight#chinese#multilingual

📥 收录于 2026/6/6

访问工具

📊 仓库数据

Stars103,966

Forks16,710

语言Python

更新2026/7/21

📈 Stars 变化 ↑8 小时 +6· 统计区间 7/21 13:41 → 7/21 21:36（8 小时）

✅ 优点

•MoE 架构推理成本显著降低
•中文能力出色
•对标 GPT-4 性能

⚠️ 限制

•模型极大需要多 GPU
•训练数据不透明
•生态不如 Llama 系列完善

🔗 相关工具

llama.cpp

开源⭐ 121k↑+57

github.com/ggml-org/llama.cpp

高性能 C++ LLM 推理引擎，支持在 CPU/GPU 上运行各种开源大语言模型，GGUF 量化格式首创者，本地 AI 生态核心基础设施

🎯本地 LLM 部署、端侧 AI 推理、离线 AI 应用、模型量化和格式转换

#推理#大语言模型#本地 AI#gguf+1

语言C++

🍴 Forks20,842

🔄 更新2026/7/21

📥 收录2026/6/6

GPT4All

开源⭐ 77k↑+1

github.com/nomic-ai/gpt4all

开源本地 LLM 聊天应用和推理框架，提供一键安装的桌面应用和 Python 生态，支持多种开源模型本地运行

🎯本地 AI 聊天、隐私敏感的文档问答、离线 AI 助手

#chat#本地 AI#大语言模型#桌面端+1

语言C++

🍴 Forks8,301

🔄 更新2026/7/21

📥 收录2026/6/6

kvpress

开源⭐ 1.1k

github.com/NVIDIA/kvpress

KVPress 是 NVIDIA 开源的 KV Cache 压缩工具，通过智能压缩技术减少大语言模型推理时的显存占用。支持多种压缩算法，显著提升长上下文处理能力。

🎯LLM 推理优化、KV Cache 压缩、长上下文处理

#推理#KV 缓存#Kv-cache-compression#大语言模型

语言Python

🍴 Forks160

🔄 更新2026/7/21

📥 收录2026/6/3

Mixture of Recursions

开源⭐ 577

github.com/raymin0223/mixture_of_recursions

结合自适应计算和早期退出的递归 Transformer 架构，优化 LLM 推理效率和精度。

🎯LLM 架构研究、推理效率优化、Transformer 改进

#大语言模型

语言Python

🍴 Forks84

🔄 更新2026/7/12

📥 收录2026/6/4

Ollama

开源⭐ 177k↑+26

github.com/ollama/ollama

本地运行开源大语言模型的最简方案，支持 Llama、Qwen、DeepSeek 等主流模型，一键安装、自动下载模型、提供 OpenAI 兼容 API，是 AI 开发者本地部署的首选工具

🎯生产环境模型推理服务

#本地部署#开源模型#API

语言Go

🍴 Forks17,046

📅 上线2023/6/27

🔄 更新2026/7/21

📥 收录2026/4/13

GPT4Free

开源⭐ 66k↑+5

github.com/xtekky/gpt4free

多模型免费访问平台，66,037+ stars。提供多种大语言模型的免费访问接口，包括 GPT-4、Claude、Gemini 等主流模型的聚合调用方案

🎯本地模型运行与推理服务

#免费模型#API聚合#多模型#开源

语言Python

🍴 Forks13,530

📅 上线2023/3/30

🔄 更新2026/7/21

📥 收录2026/4/20

← 浏览全部 1351 个工具