核心要点

  • 分层评估:检索质量 + 生成质量 + 端到端效果

  • 检索层看 Recall/Precision/MRR;生成层看 Faithfulness/Answer Relevance

  • 工具化(如 RAGAS)+ 人工标注 + 线上指标三结合

标准回答

评估必须分层,因为一个错误答案可能源于检索没召回,也可能源于生成时编造,需要定位到具体环节。

1. 检索层(Retrieval)

  • Context Recall:相关文档是否被召回。
  • Context Precision / 精确率:召回结果中相关片段的占比及排序质量。
  • MRR / Hit Rate:正确文档排名是否靠前。检索是 RAG 的天花板,先保证这层。

2. 生成层(Generation)

  • Faithfulness(忠实度):答案是否完全基于检索内容,不幻觉、不编造。
  • Answer Relevance(答案相关性):答案是否切题地回应了用户问题。
  • 可用 RAGAS 等框架以 LLM-as-judge 自动打分。

3. 端到端(End-to-End)

  • 任务成功率、人工标注的可用性评分、引用是否可溯源。
  • Agent 场景额外评估:工具调用正确率、多步规划成功率、轨迹效率(步数)、最终任务完成度。

方法组合:构建固定测试集(黄金问答对)做离线回归 + LLM-as-judge 批量打分 + 关键样本人工复核 + 线上 A/B 与用户反馈。详见 Agent 评测与调试

常见误区

⚠️ 常见踩坑

只看最终答案对不对,不拆分检索与生成。这样无法定位失败原因;且单纯用 LLM-as-judge 不校准、不做人工抽检,评分本身可能不可靠。

追问

追问 1如何判断错误是检索造成的还是生成造成的?

先看 Context Recall:若相关文档没被召回,是检索问题;若文档已召回但答案仍错或编造,是生成(Faithfulness)问题。分层指标能把责任定位到具体环节。

追问 2LLM-as-judge 评估有什么局限?如何缓解?

局限:评分有偏(偏好长答案/特定风格)、不稳定、可能与人类判断不一致。缓解:固定 rubric 与 few-shot 示例、用强模型、对关键集做人工校准、多次采样取一致性。

追问 3评估 Agent 系统比评估 RAG 多了哪些维度?

多了过程性指标:工具调用是否正确、参数是否合法、多步规划与反思是否有效、轨迹步数/成本效率,以及在出错后能否自我纠正,而不仅看最终输出。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。

🛠️ AI 工具

  • Ragas

    LLM 应用评估框架,提供 RAG 管道的自动化评测能力,支持答案相关性、上下文忠实度、幻觉检测等关键指标,帮助开发者量化和优化 LLM 应用质量。(14K+ stars)

  • LangChain

    最流行的 LLM 应用开发框架,137K+ stars。提供链式编排、RAG 检索增强生成、Agent 构建等核心能力,覆盖 Python 和 JavaScript 双语言生态,是构建 LLM 应用的基础设施