标准回答
第一步:定义「好」
不同功能指标不同。问答看准确性和相关性,摘要看忠实度和覆盖度,客服看有用性和无害性;通用还要看延迟、成本、用户满意度。先把「合格线」量化出来。
第二步:离线评测
收集一批真实样本建评测集(带标准答案或评分标准)。规则能算的(分类准确率、是否命中关键词)直接算;开放式回答用 LLM-as-judge 按 rubric 打分,或人工抽样标注。每次改 prompt/模型都在同一评测集上跑,对比有没有进步,避免「感觉变好了」。
第三步:上线 A/B 与监控
新旧版本做 A/B,看核心业务指标(采纳率、转化、人工介入率)有没有真提升;线上埋点收集用户反馈(点赞/点踩、重新生成、复制率)和延迟、成本、报错率。
第四步:盯 badcase
把差评和异常样本收集起来定期分析,归因到 prompt、检索还是模型,回流改进,形成闭环。
常见误区
⚠️ 常见踩坑
只靠自己手点几个例子「感觉不错」就上线,没有固定评测集,改一版好一版坏全凭印象;以及只看模型层指标,不看采纳率、人工介入率这些真正反映业务价值的指标。
追问
追问 1:用 LLM-as-judge 打分可靠吗?怎么用才稳?
它高效但有偏差(偏好长答案、位置偏好、不够稳定),不能完全替代人工。用法:给清晰的评分 rubric 和示例、固定 temperature、必要时做成对比较而非打绝对分、对比较顺序做平衡;再用一小批人工标注校准 judge 的可信度,关键决策仍人工复核。
追问 2:没有标准答案的开放式任务(如创意文案)怎么评?
用相对评估和多维 rubric:让评审(人工或 LLM)在「相关性/可读性/无害/是否切题」等维度打分,或做 A/B 成对偏好比较选更好的那个;结合线上用户行为(采纳率、修改量、点踩率)作为真实信号,长期靠用户反馈而非单次绝对分。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。