标准回答
为什么 LLM 评测难
输出是开放式自然语言,没有唯一正确答案,BLEU/ROUGE 等字面匹配无法衡量语义与有用性。需要多层互补的评测体系。
离线评估
构建覆盖核心场景的测试集,对每次改动跑回归:分类/抽取类用准确率、F1;生成类用任务成功率、忠实度、相关性。接入 CI,防止 prompt/模型升级造成静默退化。
LLM-as-judge
用更强的模型按明确 rubric 给开放式回答打分(或成对比较)。优点是便宜、可扩展、与人类判断相关性较高;风险是位置偏好、长度偏好、自我偏好,需固定 rubric、随机化顺序、并定期用人工标注校准其可靠性。
在线评估
离线分高不等于线上好。上线后做 A/B 测试,看真实业务指标(满意度、采纳率、留存)和隐式信号(重试、点踩、会话时长),并监控幻觉率与延迟。
人工标注
在高风险场景保留人工金标,既作为离线集来源,也用来审计 LLM-judge 的一致性。RAGAS 等可自动化 RAG 场景的忠实度评估。
常见误区
⚠️ 常见踩坑
别盲信 LLM-as-judge 的分数——它有位置/长度/自我偏好,未经人工校准可能系统性偏差。也别只看离线基准就上线:离线集覆盖不全、与线上分布有差距,最终要靠在线 A/B 验证。BLEU/ROUGE 对开放生成几乎无效,别当主指标。
追问
追问 1:LLM-as-judge 有哪些已知偏差,如何缓解?
常见位置偏好(偏向先出现的答案)、长度偏好(偏好更长回答)、自我偏好(偏向同家族模型)。缓解:成对比较时随机/交换顺序并取平均、给明确 rubric 与打分锚点、控制长度、用不同家族模型当裁判,并定期与人工标注对齐校准。
追问 2:离线评估和在线评估各自的局限?
离线快、可回归、可控变量,但测试集覆盖有限、与线上分布有偏,且无法测真实用户行为。在线反映真实收益但慢、成本高、受外部因素干扰、需足够流量。实践是离线快速筛选、在线最终验收,二者互补。
追问 3:怎么评测 Agent / 多步任务?
不只看最终答案,还要看过程:任务完成率、工具调用正确性、步数/成本、是否走错路。用端到端成功率配合轨迹评估(trajectory eval),对关键节点设检查点;可观测性追踪每步输入输出,便于定位失败环节。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。
📚 知识库
🛠️ AI 工具
- Ragas
LLM 应用评估框架,提供 RAG 管道的自动化评测能力,支持答案相关性、上下文忠实度、幻觉检测等关键指标,帮助开发者量化和优化 LLM 应用质量。(14K+ stars)