RAG(检索增强生成)

「给模型外挂知识库」

亦作、亦称:检索增强生成 · Retrieval-Augmented Generation

检索相关文档片段注入 Prompt,让 LLM 基于外部知识回答,减少幻觉并支持私有数据。 RAG 让模型「先查资料再回答」,是缓解幻觉、接入私有数据的主流架构,但检索质量决定上限。

工作原理

典型流水线:文档分块(Chunking)→ Embedding 向量化 → 存入向量库 → 用户提问时检索 Top-K 相关片段 → 可选 Reranker 精排 → 将片段注入 Prompt → LLM 基于上下文生成答案。Graph RAG、Agentic RAG 在检索策略上更灵活。

应用场景

企业知识库问答、客服、法律/医疗文献辅助、代码库问答、个人笔记检索。适合 facts 更新频繁、需引用溯源、不能仅靠模型记忆的场景。

局限与误区

「外挂知识库就万无一失」——检索失败时模型仍会编造。块大小、重叠、Embedding 模型、权限过滤与数据新鲜度都影响效果。需建立评测集持续监控召回率与答案忠实度。

发展脉络

检索增强思想早于 LLM 时代;2020 年前后与 Dense Passage Retrieval 结合;ChatGPT 普及后 RAG 成为企业落地标配;2024 年起与 Agent、知识图谱深度融合。

人们怎么说

日常交流里常听到的说法——未必准确,但有助于理解误解从哪来。

  • 「给模型外挂知识库」
  • 「先搜文档再回答」
  • 「企业知识库问答」

参见

延伸阅读

从知识库精选 2 篇文章,帮助深入理解该术语。

  1. 1

    RAG 检索增强生成架构指南

    如何结合外部知识库增强 LLM 的准确性和时效性

  2. 2

    Agent 记忆系统(四):向量数据库、知识图谱与记忆检索全景指南

    AI Agent 的记忆系统是决定其智能水平的核心组件。本文系统讲解 Agent 记忆体系的完整架构:从短期工作记忆到长期语义记忆,从向量数据库的嵌入检索到知识图谱的关系推理,从记忆压缩策略到遗忘机制,帮助你在构建 Agent 时设计正确的记忆方案。