核心要点

  • 最小功能测试(MFT):构造简单样例验证模型具备某项基础能力

  • 不变性测试(INV):改动与标签无关的内容,输出应保持不变

  • 方向性测试(DIR):改动输入后,输出应朝预期方向变化

  • 加切片/子群评估 + 固定回归集,再灰度发布而非全量直接上

标准回答

超越单一总体准确率:做行为测试(CheckList)

只看一个全局准确率会掩盖具体能力短板和子群歧视。上线前应像测软件一样测模型「行为」。

1. 最小功能测试 MFT(Minimum Functionality Test)

  • 针对某项能力构造简单、明确的样例集,验证基础能力达标。如情感分析:「这家餐厅太棒了」必须判为正向。

2. 不变性测试 INV(Invariance)

  • 对输入做不改变标签的扰动,输出应不变。如把人名换成另一个人名、加入无关空格,预测不应翻转——检验鲁棒性偏见

3. 方向性测试 DIR(Directional)

  • 对输入做应单调影响结果的改动,输出应朝预期方向变化。如在负面评论后追加更强的负面词,负向分应升高。

4. 切片与回归

  • 切片/子群评估:按地域、语言、用户群分组看指标,避免「平均不错、某群体很差」。
  • 回归集:把历史 bug 样例固化为测试集,防止改一处坏一处。

5. 上线策略

常见误区

⚠️ 常见踩坑

只用一个总体准确率拍板上线,忽略子群表现与鲁棒性;或没有回归集,导致修复一个问题又引入旧问题。

追问

追问 1不变性测试和方向性测试有什么区别?

不变性测试改的是与标签无关的内容,期望输出「不变」(如换人名);方向性测试改的是应影响结果的内容,期望输出「朝特定方向变化」(如加重负面词使负向分上升)。前者查鲁棒性/偏见,后者查模型是否学到正确因果方向。

追问 2为什么切片评估很重要?

总体指标会被多数群体主导,掩盖少数子群的严重退化。按地域、语言、设备、用户分层评估能暴露公平性问题和长尾失效,避免「平均 95% 但某群体只有 60%」的隐患上线。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。