如何评估一个 RAG / Agent 系统的效果？

Q: 如何评估一个 RAG / Agent 系统的效果？

评估必须分层，因为一个错误答案可能源于检索没召回，也可能源于生成时编造，需要定位到具体环节。 1. 检索层（Retrieval） - Context Recall：相关文档是否被召回。 - Context Precision / 精确率：召回结果中相关片段的占比及排序质量。 - MRR / Hit Rate：正确文档排名是否靠前。检索是 RAG 的天花板，先保证这层。 2. 生成层（Generation） - Faithfulness（忠实度）：答案是否完全基于检索内容，不幻觉、不编造。 - Answer Relevance（答案相关性）：答案是否切题地回应了用户问题。 - 可用 RAGAS 等框架以 LLM-as-judge 自动打分。 3. 端到端（End-to-End） - 任务成功率、人工标注的可用性评分、引用是否可溯源。 - Agent 场景额外评估：工具调用正确率、多步规划成功率、轨迹效率（步数）、最终任务完成度。 方法组合：构建固定测试集（黄金问答对）做离线回归 + LLM-as-judge 批量打分 + 关键样本人工复核 + 线上 A/B 与用户反馈。详见 Agent 评测与调试。

Question 1

Accepted Answer

评估必须分层，因为一个错误答案可能源于检索没召回，也可能源于生成时编造，需要定位到具体环节。

1. 检索层（Retrieval）

Context Recall：相关文档是否被召回。
Context Precision / 精确率：召回结果中相关片段的占比及排序质量。
MRR / Hit Rate：正确文档排名是否靠前。检索是 RAG 的天花板，先保证这层。

2. 生成层（Generation）

Faithfulness（忠实度）：答案是否完全基于检索内容，不幻觉、不编造。
Answer Relevance（答案相关性）：答案是否切题地回应了用户问题。
可用 RAGAS 等框架以 LLM-as-judge 自动打分。

3. 端到端（End-to-End）

任务成功率、人工标注的可用性评分、引用是否可溯源。
Agent 场景额外评估：工具调用正确率、多步规划成功率、轨迹效率（步数）、最终任务完成度。

方法组合：构建固定测试集（黄金问答对）做离线回归 + LLM-as-judge 批量打分 + 关键样本人工复核 + 线上 A/B 与用户反馈。详见 Agent 评测与调试。

Question 2

如何判断错误是检索造成的还是生成造成的？

Accepted Answer

先看 Context Recall：若相关文档没被召回，是检索问题；若文档已召回但答案仍错或编造，是生成（Faithfulness）问题。分层指标能把责任定位到具体环节。

Question 3

LLM-as-judge 评估有什么局限？如何缓解？

Accepted Answer

局限：评分有偏（偏好长答案/特定风格）、不稳定、可能与人类判断不一致。缓解：固定 rubric 与 few-shot 示例、用强模型、对关键集做人工校准、多次采样取一致性。

Question 4

评估 Agent 系统比评估 RAG 多了哪些维度？

Accepted Answer

多了过程性指标：工具调用是否正确、参数是否合法、多步规划与反思是否有效、轨迹步数/成本效率，以及在出错后能否自我纠正，而不仅看最终输出。

如何评估一个 RAG / Agent 系统的效果？

核心要点

标准回答

常见误区

追问

延伸学习