Agentic RAG

Agent 自己决定查什么

Agentic RAG 是将自主 AI 智能体嵌入检索增强生成（RAG）流水线的架构范式，让模型能够自主规划检索策略、迭代查询并整合多来源结果，而非依赖固定的单轮检索流程。相比传统 RAG，它在多跳推理与复杂知识密集型任务上表现更强，代价是推理链路更长、Token 消耗与延迟更高。

概述

Agentic RAG 是将自主 AI 智能体嵌入检索增强生成（RAG）流水线的架构范式，让模型能够自主规划检索策略、迭代查询并整合多来源结果，而非依赖固定的单轮检索流程。相比传统 RAG，它在多跳推理与复杂知识密集型任务上表现更强，代价是推理链路更长、Token 消耗与延迟更高。

背景：从传统 RAG 到 Agentic RAG

RAG 由 Patrick Lewis 等人于 2020 年在 NeurIPS 论文中提出，将稠密检索器与 seq2seq 模型结合以处理知识密集型任务；Agentic RAG 是其在智能体时代的演进形态。

2020：Lewis et al.（Meta AI）发表 RAG 原始论文，引入参数记忆与非参数检索相结合的框架，在多个开放域问答基准上达到当时最优。
2022：Yao et al. 提出 ReAct 范式（推理与行动交替循环），为 Agentic RAG 提供核心执行骨架。
2023：RAG 成为生产部署主流，但固定流水线在多跳推理场景暴露局限；LlamaIndex、LangChain 等框架推出 Agent + 检索工具的工程实现，「Agentic RAG」一词开始在社区流行。
2024：LLM Agent 能力成熟，Agentic RAG 成为下一代范式；微软开源 GraphRAG，结合知识图谱与智能体检索。
2025 年 1 月：Singh et al. 发布首篇 Agentic RAG 系统综述（arXiv:2501.09136），正式建立分类体系。

核心机制

Agentic RAG 的本质是在生成前插入一个「智能体控制层」，赋予系统动态决策与迭代精化能力。

自主查询规划：智能体将复杂问题分解为子问题，按需生成多轮检索指令，而非仅执行一次固定查询。
工具调用：可调用向量语义检索、BM25 关键词搜索、SQL 数据库、网络搜索、代码执行等异构工具。
迭代精化：每轮检索结果反馈给智能体，由其判断是否信息充足或需继续检索，形成「推理—行动—观察」循环。
反思与验证：生成答案后可再次检索核实，降低幻觉风险。
终止控制：必须设定最大步数与 Token 预算上限，防止无效循环导致成本失控。

核心智能体设计模式

Agentic RAG 融合了通用 LLM Agent 的四类设计模式，并将其专用于检索与知识获取场景。

规划（Planning）：将用户查询拆解为可执行的子任务序列，制定检索路线图，处理多跳依赖关系。
工具使用（Tool Use）：通过 Function Calling 接口访问外部知识源，工具集以检索为核心但不限于此。
反思（Reflection）：生成后自我评估答案质量与来源可信度，决定是否触发补充检索或修正。
多智能体协作（Multi-Agent Collaboration）：主智能体派发子任务给专职检索智能体，实现并行知识获取并汇总结果。

与传统 RAG 的对比

理解 Agentic RAG 的价值，需与固定流水线 RAG 进行横向对比。

检索策略：传统 RAG 单次检索固定 top-k 文档；Agentic RAG 动态决定检索次数、查询改写方式与工具选择。
多跳推理：传统 RAG 难以处理需要链式推理的复杂问题；Agentic RAG 可将其分解为有序子查询，逐步收集证据。
工具多样性：传统 RAG 仅依赖单一向量数据库；Agentic RAG 可调用搜索引擎、计算器、代码解释器等任意工具。
成本与延迟：Agentic RAG 调用链更长，Token 消耗与端到端延迟显著高于传统 RAG。
可控性：更强的灵活性同时带来更高的调试与可观测性要求。

典型应用场景

Agentic RAG 在需要深度推理或跨领域知识融合的场景中优势最为显著。

企业知识问答：跨部门文档、多版本手册的统一问答，需要在多个索引间路由并整合。
医疗与法律：综合病历、药典、研究文献或法规条文，支持需精确引用的复杂决策辅助。
金融分析：跨财报、新闻与监管文件执行多跳问答与风险分析。
代码助手：跨多个代码仓库或文档检索，回答依赖关系与接口定义等结构性问题。
实时信息融合：结合网络搜索工具，将模型参数知识与最新数据结合作答。

挑战与实践要点

部署 Agentic RAG 时需权衡收益与工程复杂度，避免常见误区。

成本控制：多轮检索与工具调用显著增加 Token 消耗，每次对话成本波动大，必须设置硬上限。
- 延迟管理：智能体推理链路长，对实时交互场景不友好，可通过并行子智能体或缓存中间结果缓解。
-幻觉风险仍存在：动态检索可能引入噪声文档，需结合重排序（Reranker）与答案验证机制。
- 上下文溢出：多轮检索结果拼接后可能超出上下文窗口限制，需配合长上下文管理策略。
-安全边界：智能体拥有工具调用权限，需防范提示注入与越权操作风险，设置工具调用白名单。

工具与生态

围绕 Agentic RAG 已形成较完整的开源与商业工具链。

LangChain / LangGraph：提供 Agent 编排与 RAG 集成的主流框架，支持多步检索图构建与状态管理。
LlamaIndex：专注 RAG 场景的框架，Agentic RAG 为其核心功能之一，提供丰富的检索工具抽象。
Microsoft AutoGen：多智能体框架，可用于构建协作式检索智能体系统。
向量数据库：Weaviate、Chroma、Qdrant、FAISS 等提供与智能体框架的原生集成。
可观测性工具：LangSmith、Arize、Weights & Biases 支持 Agent 调用链追踪，是生产部署不可或缺的基础设施。

常见误解

日常交流中容易听到的简化说法，未必准确，但能帮助理解误解从何而来。

「Agent 自己决定查什么」
「Agent 赛道必提」
「跟 Agentic RAG 是一回事吗」

相关术语

和本术语关联紧密的其他词条，便于串联理解。

🎯 考点练习

含该术语的高频面试题，含标准答案与追问。

浏览全部面试题 →

延伸阅读

从知识库精选 2 篇文章，帮助深入理解该术语。

外部参考

维基百科：查看「Agentic RAG」词条

本页内容为本站原创撰写；维基百科链接仅作延伸参考。