核心要点

  • 能讲清核心分工:RAG 注入「知识」(频繁更新、需溯源),微调改「行为」(风格、格式、领域术语、拒答策略

  • 能说出机制差异:RAG 不改权重、靠检索拼上下文,更新即时但有检索延迟;微调把模式烘焙进权重,无检索延迟但更新需重训

  • 能给组合方案:生产常 RAG 提供事实依据 + 微调教模型如何用好检索结果(引用格式、何时拒答)

  • 能避免非黑即白:先按「问题是缺知识还是缺能力」定位,再选型,而非一刀切

简要回答

知识常变、要溯源→RAG;固化风格/格式→微调。RAG 不改权重;微调把知识烘焙进模型,更新慢但推理无检索延迟。

标准回答

先定位问题是「缺知识」还是「缺能力」,再选型。

RAG(检索增强生成)

适合知识频繁更新、需要溯源、私有数据隔离的场景。不改模型权重,靠检索把外部知识拼进上下文,更新即时、可追溯引用来源;代价是有检索延迟、依赖检索质量。

微调(Fine-tuning)

适合固化行为模式、回答风格、领域语言、输出格式。把模式烘焙进权重,推理无检索延迟;代价是更新知识需重新训练、不易溯源。

选型与组合

知识密集、易变的任务优先 RAG;风格/格式/术语要统一用微调。生产环境最常见的是两者组合:RAG 提供事实依据,微调教模型如何用好检索结果(引用格式、何时拒答)。

常见误区

⚠️ 常见踩坑

用微调来「灌知识」——微调擅长改行为而非记忆海量事实,灌进去的知识既难更新又易幻觉,时效性知识应交给 RAG;另一误区是「什么都 RAG」或「什么都微调」的一刀切回答。

追问

追问 1RAG 检索质量差时如何兜底?

低置信度时拒答或澄清;多路检索+rerank;HyDE/查询改写;fallback 到通用知识并明确标注「未在知识库中找到」。

追问 2LoRA 和全量微调怎么选?

多数场景选 LoRA:只训练注入的低秩适配器,显存与存储成本低、可为不同任务挂载多套适配器、不易灾难性遗忘,适合数据量有限、要快速迭代的业务定制。全量微调更新所有权重,效果上限更高但成本高、需大量高质量数据,仅在领域差异极大、算力充足、追求极致效果时才值得。

追问 3如何评估 RAG 系统?

题库专题:向量数据库在 RAG 中的作用是什么?如何选型?

指标:Context Recall、Faithfulness、Answer Relevance。可用 LLM-as-judge 或人工标注;生产环境要求引用来源并可点击溯源。

题库延伸:与本追问相关的专题题 → 向量数据库在 RAG 中的作用是什么?如何选型?

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。

🛠️ AI 工具

  • LangChain

    最流行的 LLM 应用开发框架,137K+ stars。提供链式编排、RAG 检索增强生成、Agent 构建等核心能力,覆盖 Python 和 JavaScript 双语言生态,是构建 LLM 应用的基础设施

  • MCP Playwright

    Playwright 浏览器自动化的 MCP 实现,将成熟的 Playwright 测试框架能力通过标准 MCP 协议暴露给 AI Agent。支持网页抓取、表单自动化、E2E 测试场景、SPA 应用交互等完整浏览器自动化能力。5,400+ GitHub Star,相比原生浏览器 MCP 方案,Playwright 的跨浏览器支持(Chromium/Firefox/WebKit)和成熟 API 使其在复杂场景下更可靠

  • AutoGen / AG2

    微软开源对话式多 Agent 框架,54,000+ GitHub stars(最高),强项是代码沙箱和迭代调试,多个 Agent 通过对话协作完成复杂编程任务,MIT 协议

  • crewAI

    角色扮演 AI Agent 编排框架,49,411+ stars。通过角色分配让多个 Agent 协作完成复杂任务,支持工具调用、任务委派、结果审核。是构建 Multi-Agent 系统的最流行框架。