如何评测 LLM 应用质量（离线 / 在线 / LLM-as-judge）？

Question 1

Accepted Answer

为什么 LLM 评测难 输出是开放式自然语言，没有唯一正确答案，BLEU/ROUGE 等字面匹配无法衡量语义与有用性。需要多层互补的评测体系。 离线评估 构建覆盖核心场景的测试集，对每次改动跑回归：分类/抽取类用准确率、F1；生成类用任务成功率、忠实度、相关性。接入 CI，防止 prompt/模型升级造成静默退化。 LLM-as-judge 用更强的模型按明确 rubric 给开放式回答打分（或成对比较）。优点是便宜、可扩展、与人类判断相关性较高；风险是位置偏好、长度偏好、自我偏好，需固定 rubric、随机化顺序、并定期用人工标注校准其可靠性。 在线评估 离线分高不等于线上好。上线后做 A/B 测试，看真实业务指标（满意度、采纳率、留存）和隐式信号（重试、点踩、会话时长），并监控幻觉率与延迟。 人工标注 在高风险场景保留人工金标，既作为离线集来源，也用来审计 LLM-judge 的一致性。RAGAS 等可自动化 RAG 场景的忠实度评估。

Question 2

LLM-as-judge 有哪些已知偏差，如何缓解？

Accepted Answer

常见位置偏好（偏向先出现的答案）、长度偏好（偏好更长回答）、自我偏好（偏向同家族模型）。缓解：成对比较时随机/交换顺序并取平均、给明确 rubric 与打分锚点、控制长度、用不同家族模型当裁判，并定期与人工标注对齐校准。

Question 3

离线评估和在线评估各自的局限？

Accepted Answer

离线快、可回归、可控变量，但测试集覆盖有限、与线上分布有偏，且无法测真实用户行为。在线反映真实收益但慢、成本高、受外部因素干扰、需足够流量。实践是离线快速筛选、在线最终验收，二者互补。

Question 4

怎么评测 Agent / 多步任务？

Accepted Answer

不只看最终答案，还要看过程：任务完成率、工具调用正确性、步数/成本、是否走错路。用端到端成功率配合轨迹评估（trajectory eval），对关键节点设检查点；可观测性追踪每步输入输出，便于定位失败环节。

如何评测 LLM 应用质量（离线 / 在线 / LLM-as-judge）？

核心要点

标准回答

常见误区

追问

延伸学习