RAG 和微调（Fine-tuning）各适合什么场景？如何选型？

Question 1

Accepted Answer

先定位问题是「缺知识」还是「缺能力」，再选型。 RAG（检索增强生成） 适合知识频繁更新、需要溯源、私有数据隔离的场景。不改模型权重，靠检索把外部知识拼进上下文，更新即时、可追溯引用来源；代价是有检索延迟、依赖检索质量。 微调（Fine-tuning） 适合固化行为模式、回答风格、领域语言、输出格式。把模式烘焙进权重，推理无检索延迟；代价是更新知识需重新训练、不易溯源。 选型与组合 知识密集、易变的任务优先 RAG；风格/格式/术语要统一用微调。生产环境最常见的是两者组合：RAG 提供事实依据，微调教模型如何用好检索结果（引用格式、何时拒答）。

Question 2

RAG 检索质量差时如何兜底？

Accepted Answer

低置信度时拒答或澄清；多路检索+rerank；HyDE/查询改写；fallback 到通用知识并明确标注「未在知识库中找到」。

Question 3

LoRA 和全量微调怎么选？

Accepted Answer

多数场景选 LoRA：只训练注入的低秩适配器，显存与存储成本低、可为不同任务挂载多套适配器、不易灾难性遗忘，适合数据量有限、要快速迭代的业务定制。全量微调更新所有权重，效果上限更高但成本高、需大量高质量数据，仅在领域差异极大、算力充足、追求极致效果时才值得。

Question 4

如何评估 RAG 系统？

Accepted Answer

指标：Context Recall、Faithfulness、Answer Relevance。可用 LLM-as-judge 或人工标注；生产环境要求引用来源并可点击溯源。

题库延伸：与本追问相关的专题题 → 向量数据库在 RAG 中的作用是什么？如何选型？

RAG 和微调（Fine-tuning）各适合什么场景？如何选型？

核心要点

简要回答

标准回答

常见误区

追问

延伸学习