核心要点

  • 选工具:上手用 Ollama 最简单;要榨性能/高并发用 vLLM;纯 CPU 或极简用 llama.cpp

  • 选模型:从开源权重里挑(如 Qwen、Llama、Gemma 等),按显存定大小

  • 量化省显存:4bit(如 GGUF/AWQ)能让小显卡也跑得动,代价是略损质量

  • 适用场景:数据隐私/离线/内网/定制;注意硬件要求和性能-质量权衡

标准回答

为什么本地跑

数据不能出内网、要离线用、或想深度定制时,就把开源大模型部署在自己机器上。好处是数据不外传、可控;代价是要自己准备硬件、承担运维。

用什么工具

最省心的是 Ollama:装好后一条命令拉模型就能聊,适合个人和快速验证。要面向多人/高并发、追求吞吐和速度,用 vLLM 这类推理框架。机器没好显卡、想在 CPU 上跑或塞进小设备,用 llama.cpp。

怎么选模型大小

开源权重很多(Qwen、Llama、Gemma 等系列),关键看显存。小模型(几 B 参数)几 GB 显存就行、速度快但能力弱;大模型效果好但吃显存。CPU 也能跑小模型,就是慢。

量化省显存

把权重从 16bit 压到 4bit(量化,常见 GGUF/AWQ 格式),显存占用大幅下降,让普通显卡甚至笔记本也跑得起来,质量略有损失但多数场景够用。

一句话:按"显存预算 → 选模型大小和量化 → 选工具"的顺序来。

常见误区

⚠️ 常见踩坑

以为开源大模型随便一台电脑就能流畅跑——大模型很吃显存,选超出硬件的型号会爆显存或慢到不可用;也别忽视量化带来的质量下降,关键场景要实测。

追问

追问 1没有独立显卡(GPU),还能跑吗?

能,但有限。用 llama.cpp / Ollama 在 CPU 上跑小模型(几 B 参数 + 4bit 量化)是可行的,就是速度慢、上下文长了更慢。要流畅或跑大模型基本还是得有 GPU 显存。内存也要够,否则装不下。

追问 2本地模型效果不如在线大模型,怎么办?

先在硬件允许范围内换更大/更新的开源模型,并选合适量化;针对具体任务做提示词优化或轻量微调(如 LoRA);配 RAG 把领域资料喂进去补知识。还不够就走"敏感数据本地、复杂任务调用在线大模型"的混合方案。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。

🛠️ AI 工具

  • llama.cpp

    高性能 C++ LLM 推理引擎,支持在 CPU/GPU 上运行各种开源大语言模型,GGUF 量化格式首创者,本地 AI 生态核心基础设施

  • Ollama

    本地运行开源大语言模型的最简方案,支持 Llama、Qwen、DeepSeek 等主流模型,一键安装、自动下载模型、提供 OpenAI 兼容 API,是 AI 开发者本地部署的首选工具

  • vLLM

    高吞吐 LLM 推理引擎,77,418+ stars。采用 PagedAttention 显存优化技术,吞吐量比 HuggingFace Transformers 高 24 倍,是生产环境部署大模型推理的首选方案,支持 OpenAI 兼容 API