怎么判断你做的 AI 功能效果好不好？

Question 1

怎么判断你做的 AI 功能效果好不好？

Accepted Answer

第一步：定义「好」 不同功能指标不同。问答看准确性和相关性，摘要看忠实度和覆盖度，客服看有用性和无害性；通用还要看延迟、成本、用户满意度。先把「合格线」量化出来。 第二步：离线评测 收集一批真实样本建评测集（带标准答案或评分标准）。规则能算的（分类准确率、是否命中关键词）直接算；开放式回答用 LLM-as-judge 按 rubric 打分，或人工抽样标注。每次改 prompt/模型都在同一评测集上跑，对比有没有进步，避免「感觉变好了」。 第三步：上线 A/B 与监控 新旧版本做 A/B，看核心业务指标（采纳率、转化、人工介入率）有没有真提升；线上埋点收集用户反馈（点赞/点踩、重新生成、复制率）和延迟、成本、报错率。 第四步：盯 badcase 把差评和异常样本收集起来定期分析，归因到 prompt、检索还是模型，回流改进，形成闭环。

Question 2

用 LLM-as-judge 打分可靠吗？怎么用才稳？

Accepted Answer

它高效但有偏差（偏好长答案、位置偏好、不够稳定），不能完全替代人工。用法：给清晰的评分 rubric 和示例、固定 temperature、必要时做成对比较而非打绝对分、对比较顺序做平衡；再用一小批人工标注校准 judge 的可信度，关键决策仍人工复核。

Question 3

没有标准答案的开放式任务（如创意文案）怎么评？

Accepted Answer

用相对评估和多维 rubric：让评审（人工或 LLM）在「相关性/可读性/无害/是否切题」等维度打分，或做 A/B 成对偏好比较选更好的那个；结合线上用户行为（采纳率、修改量、点踩率）作为真实信号，长期靠用户反馈而非单次绝对分。

怎么判断你做的 AI 功能效果好不好？

核心要点

标准回答

常见误区

追问

延伸学习