核心要点

  • 先定义「好」的指标,按任务定(准确/相关/有用/无害,加延迟、成本、用户满意度)

  • 建评测集做离线评测:人工标注或 LLM-as-judge 打分,迭代前后对比

  • 上线做 A/B 测试 + 用户反馈监控(点赞点踩、重试率、留存)

  • 持续盯 badcase,把坏样本回流去优化 prompt / 检索 / 模型

标准回答

第一步:定义「好」

不同功能指标不同。问答看准确性和相关性,摘要看忠实度和覆盖度,客服看有用性和无害性;通用还要看延迟、成本、用户满意度。先把「合格线」量化出来。

第二步:离线评测

收集一批真实样本建评测集(带标准答案或评分标准)。规则能算的(分类准确率、是否命中关键词)直接算;开放式回答用 LLM-as-judge 按 rubric 打分,或人工抽样标注。每次改 prompt/模型都在同一评测集上跑,对比有没有进步,避免「感觉变好了」。

第三步:上线 A/B 与监控

新旧版本做 A/B,看核心业务指标(采纳率、转化、人工介入率)有没有真提升;线上埋点收集用户反馈(点赞/点踩、重新生成、复制率)和延迟、成本、报错率。

第四步:盯 badcase

把差评和异常样本收集起来定期分析,归因到 prompt、检索还是模型,回流改进,形成闭环。

常见误区

⚠️ 常见踩坑

只靠自己手点几个例子「感觉不错」就上线,没有固定评测集,改一版好一版坏全凭印象;以及只看模型层指标,不看采纳率、人工介入率这些真正反映业务价值的指标。

追问

追问 1用 LLM-as-judge 打分可靠吗?怎么用才稳?

它高效但有偏差(偏好长答案、位置偏好、不够稳定),不能完全替代人工。用法:给清晰的评分 rubric 和示例、固定 temperature、必要时做成对比较而非打绝对分、对比较顺序做平衡;再用一小批人工标注校准 judge 的可信度,关键决策仍人工复核。

追问 2没有标准答案的开放式任务(如创意文案)怎么评?

用相对评估和多维 rubric:让评审(人工或 LLM)在「相关性/可读性/无害/是否切题」等维度打分,或做 A/B 成对偏好比较选更好的那个;结合线上用户行为(采纳率、修改量、点踩率)作为真实信号,长期靠用户反馈而非单次绝对分。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。