标准回答
为什么本地跑
数据不能出内网、要离线用、或想深度定制时,就把开源大模型部署在自己机器上。好处是数据不外传、可控;代价是要自己准备硬件、承担运维。
用什么工具
最省心的是 Ollama:装好后一条命令拉模型就能聊,适合个人和快速验证。要面向多人/高并发、追求吞吐和速度,用 vLLM 这类推理框架。机器没好显卡、想在 CPU 上跑或塞进小设备,用 llama.cpp。
怎么选模型大小
开源权重很多(Qwen、Llama、Gemma 等系列),关键看显存。小模型(几 B 参数)几 GB 显存就行、速度快但能力弱;大模型效果好但吃显存。CPU 也能跑小模型,就是慢。
量化省显存
把权重从 16bit 压到 4bit(量化,常见 GGUF/AWQ 格式),显存占用大幅下降,让普通显卡甚至笔记本也跑得起来,质量略有损失但多数场景够用。
一句话:按"显存预算 → 选模型大小和量化 → 选工具"的顺序来。
常见误区
⚠️ 常见踩坑
以为开源大模型随便一台电脑就能流畅跑——大模型很吃显存,选超出硬件的型号会爆显存或慢到不可用;也别忽视量化带来的质量下降,关键场景要实测。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。
📚 知识库
🛠️ AI 工具
- llama.cpp
高性能 C++ LLM 推理引擎,支持在 CPU/GPU 上运行各种开源大语言模型,GGUF 量化格式首创者,本地 AI 生态核心基础设施
- Ollama
本地运行开源大语言模型的最简方案,支持 Llama、Qwen、DeepSeek 等主流模型,一键安装、自动下载模型、提供 OpenAI 兼容 API,是 AI 开发者本地部署的首选工具
- vLLM
高吞吐 LLM 推理引擎,77,418+ stars。采用 PagedAttention 显存优化技术,吞吐量比 HuggingFace Transformers 高 24 倍,是生产环境部署大模型推理的首选方案,支持 OpenAI 兼容 API