标准回答
评估必须分层,因为一个错误答案可能源于检索没召回,也可能源于生成时编造,需要定位到具体环节。
1. 检索层(Retrieval)
- Context Recall:相关文档是否被召回。
- Context Precision / 精确率:召回结果中相关片段的占比及排序质量。
- MRR / Hit Rate:正确文档排名是否靠前。检索是 RAG 的天花板,先保证这层。
2. 生成层(Generation)
- Faithfulness(忠实度):答案是否完全基于检索内容,不幻觉、不编造。
- Answer Relevance(答案相关性):答案是否切题地回应了用户问题。
- 可用 RAGAS 等框架以 LLM-as-judge 自动打分。
3. 端到端(End-to-End)
方法组合:构建固定测试集(黄金问答对)做离线回归 + LLM-as-judge 批量打分 + 关键样本人工复核 + 线上 A/B 与用户反馈。详见 Agent 评测与调试。
常见误区
⚠️ 常见踩坑
只看最终答案对不对,不拆分检索与生成。这样无法定位失败原因;且单纯用 LLM-as-judge 不校准、不做人工抽检,评分本身可能不可靠。
追问
追问 1:如何判断错误是检索造成的还是生成造成的?
先看 Context Recall:若相关文档没被召回,是检索问题;若文档已召回但答案仍错或编造,是生成(Faithfulness)问题。分层指标能把责任定位到具体环节。
追问 2:LLM-as-judge 评估有什么局限?如何缓解?
局限:评分有偏(偏好长答案/特定风格)、不稳定、可能与人类判断不一致。缓解:固定 rubric 与 few-shot 示例、用强模型、对关键集做人工校准、多次采样取一致性。
追问 3:评估 Agent 系统比评估 RAG 多了哪些维度?
多了过程性指标:工具调用是否正确、参数是否合法、多步规划与反思是否有效、轨迹步数/成本效率,以及在出错后能否自我纠正,而不仅看最终输出。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。
🛠️ AI 工具