什么是 Agentic RAG？它相比传统 RAG 强在哪里？

Question 1

Accepted Answer

定义（独占一行）

Agentic RAG 是把检索环节交给一个具备决策能力的 LLM Agent：模型自主判断当前问题是否需要检索、应该检索什么、查询哪个数据源，并在拿到结果后评估是否充分、是否需要改写查询再检索一次。

与传统 RAG 的区别

传统 RAG 是固定流水线——把用户问题 embedding，做一次向量检索，把片段拼进上下文再生成。一旦检索召回不准，就无从纠正。Agentic RAG 引入 ReAct 式的「推理-行动」循环，可对复杂问题做查询分解、多源路由、检索后反思与多轮重检索。

优势场景

多跳问答、需要跨多个知识库综合、问题表述模糊或需先澄清的任务，Agentic RAG 的准确率明显更高，且检索过程可解释、可纠错。代价是多轮调用带来的延迟与成本上升。

Question 2

Agentic RAG 如何避免无限循环或检索过多？

Accepted Answer

设置最大迭代轮次与工具调用次数上限；每轮要求模型显式给出「是否已足够回答」的判断；对重复或低收益的检索做去重与提前终止，并记录 trace 便于调参。

Question 3

它如何决定查询哪个数据源？

Accepted Answer

通过路由（Router）实现：把各数据源以工具或带描述的索引形式暴露给模型，由模型按问题语义选择；也可先用分类器或元数据过滤缩小范围，再让 Agent 在候选源上检索。

Question 4

Agentic RAG 的延迟更高，如何优化？

Accepted Answer

并行化可独立的子查询；对常见问题缓存检索结果与最终答案；用更小的模型做路由与判断、大模型只做最终合成；限制循环轮次并流式输出中间进展。

核心要点