RAG(检索增强生成)
「给模型外挂知识库」
亦作、亦称:检索增强生成 · Retrieval-Augmented Generation
检索相关文档片段注入 Prompt,让 LLM 基于外部知识回答,减少幻觉并支持私有数据。 RAG 让模型「先查资料再回答」,是缓解幻觉、接入私有数据的主流架构,但检索质量决定上限。
工作原理
典型流水线:文档分块(Chunking)→ Embedding 向量化 → 存入向量库 → 用户提问时检索 Top-K 相关片段 → 可选 Reranker 精排 → 将片段注入 Prompt → LLM 基于上下文生成答案。Graph RAG、Agentic RAG 在检索策略上更灵活。
应用场景
企业知识库问答、客服、法律/医疗文献辅助、代码库问答、个人笔记检索。适合 facts 更新频繁、需引用溯源、不能仅靠模型记忆的场景。
局限与误区
「外挂知识库就万无一失」——检索失败时模型仍会编造。块大小、重叠、Embedding 模型、权限过滤与数据新鲜度都影响效果。需建立评测集持续监控召回率与答案忠实度。
发展脉络
检索增强思想早于 LLM 时代;2020 年前后与 Dense Passage Retrieval 结合;ChatGPT 普及后 RAG 成为企业落地标配;2024 年起与 Agent、知识图谱深度融合。
人们怎么说
日常交流里常听到的说法——未必准确,但有助于理解误解从哪来。
- 「给模型外挂知识库」
- 「先搜文档再回答」
- 「企业知识库问答」
参见
延伸阅读
从知识库精选 2 篇文章,帮助深入理解该术语。