如何把开源大模型在本地 / 内网跑起来？

Question 1

Accepted Answer

为什么本地跑 数据不能出内网、要离线用、或想深度定制时，就把开源大模型部署在自己机器上。好处是数据不外传、可控；代价是要自己准备硬件、承担运维。 用什么工具 最省心的是 Ollama：装好后一条命令拉模型就能聊，适合个人和快速验证。要面向多人/高并发、追求吞吐和速度，用 vLLM 这类推理框架。机器没好显卡、想在 CPU 上跑或塞进小设备，用 llama.cpp。 怎么选模型大小 开源权重很多（Qwen、Llama、Gemma 等系列），关键看显存。小模型（几 B 参数）几 GB 显存就行、速度快但能力弱；大模型效果好但吃显存。CPU 也能跑小模型，就是慢。 量化省显存 把权重从 16bit 压到 4bit（量化，常见 GGUF/AWQ 格式），显存占用大幅下降，让普通显卡甚至笔记本也跑得起来，质量略有损失但多数场景够用。 一句话：按"显存预算 → 选模型大小和量化 → 选工具"的顺序来。

Question 2

没有独立显卡（GPU），还能跑吗？

Accepted Answer

能，但有限。用 llama.cpp / Ollama 在 CPU 上跑小模型（几 B 参数 + 4bit 量化）是可行的，就是速度慢、上下文长了更慢。要流畅或跑大模型基本还是得有 GPU 显存。内存也要够，否则装不下。

Question 3

本地模型效果不如在线大模型，怎么办？

Accepted Answer

先在硬件允许范围内换更大/更新的开源模型，并选合适量化；针对具体任务做提示词优化或轻量微调（如 LoRA）；配 RAG 把领域资料喂进去补知识。还不够就走"敏感数据本地、复杂任务调用在线大模型"的混合方案。

如何把开源大模型在本地 / 内网跑起来？

核心要点

标准回答

常见误区

追问

延伸学习