核心要点

  • 离线评估:固定测试集跑基准(任务正确率、忠实度等),改动前后可对照、CI 可回归。

  • LLM-as-judge:用强模型按 rubric 给开放式回答打分,便宜可扩展,但需校准与防偏。

  • 在线评估:A/B 测试看真实业务指标(满意度、留存、转化)与隐式反馈,是最终裁判。

  • 人工标注:在关键/高风险场景做金标,用来校准自动评估并定期审计 judge 一致性。

标准回答

为什么 LLM 评测难

输出是开放式自然语言,没有唯一正确答案,BLEU/ROUGE 等字面匹配无法衡量语义与有用性。需要多层互补的评测体系。

离线评估

构建覆盖核心场景的测试集,对每次改动跑回归:分类/抽取类用准确率、F1;生成类用任务成功率、忠实度、相关性。接入 CI,防止 prompt/模型升级造成静默退化。

LLM-as-judge

用更强的模型按明确 rubric 给开放式回答打分(或成对比较)。优点是便宜、可扩展、与人类判断相关性较高;风险是位置偏好、长度偏好、自我偏好,需固定 rubric、随机化顺序、并定期用人工标注校准其可靠性。

在线评估

离线分高不等于线上好。上线后做 A/B 测试,看真实业务指标(满意度、采纳率、留存)和隐式信号(重试、点踩、会话时长),并监控幻觉率与延迟。

人工标注

在高风险场景保留人工金标,既作为离线集来源,也用来审计 LLM-judge 的一致性。RAGAS 等可自动化 RAG 场景的忠实度评估。

常见误区

⚠️ 常见踩坑

别盲信 LLM-as-judge 的分数——它有位置/长度/自我偏好,未经人工校准可能系统性偏差。也别只看离线基准就上线:离线集覆盖不全、与线上分布有差距,最终要靠在线 A/B 验证。BLEU/ROUGE 对开放生成几乎无效,别当主指标。

追问

追问 1LLM-as-judge 有哪些已知偏差,如何缓解?

常见位置偏好(偏向先出现的答案)、长度偏好(偏好更长回答)、自我偏好(偏向同家族模型)。缓解:成对比较时随机/交换顺序并取平均、给明确 rubric 与打分锚点、控制长度、用不同家族模型当裁判,并定期与人工标注对齐校准。

追问 2离线评估和在线评估各自的局限?

离线快、可回归、可控变量,但测试集覆盖有限、与线上分布有偏,且无法测真实用户行为。在线反映真实收益但慢、成本高、受外部因素干扰、需足够流量。实践是离线快速筛选、在线最终验收,二者互补。

追问 3怎么评测 Agent / 多步任务?

不只看最终答案,还要看过程:任务完成率、工具调用正确性、步数/成本、是否走错路。用端到端成功率配合轨迹评估(trajectory eval),对关键节点设检查点;可观测性追踪每步输入输出,便于定位失败环节。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。