核心要点
最小功能测试(MFT):构造简单样例验证模型具备某项基础能力
不变性测试(INV):改动与标签无关的内容,输出应保持不变
方向性测试(DIR):改动输入后,输出应朝预期方向变化
加切片/子群评估 + 固定回归集,再灰度发布而非全量直接上
标准回答
超越单一总体准确率:做行为测试(CheckList)
只看一个全局准确率会掩盖具体能力短板和子群歧视。上线前应像测软件一样测模型「行为」。
1. 最小功能测试 MFT(Minimum Functionality Test)
- 针对某项能力构造简单、明确的样例集,验证基础能力达标。如情感分析:「这家餐厅太棒了」必须判为正向。
2. 不变性测试 INV(Invariance)
3. 方向性测试 DIR(Directional)
- 对输入做应单调影响结果的改动,输出应朝预期方向变化。如在负面评论后追加更强的负面词,负向分应升高。
4. 切片与回归
- 切片/子群评估:按地域、语言、用户群分组看指标,避免「平均不错、某群体很差」。
- 回归集:把历史 bug 样例固化为测试集,防止改一处坏一处。
5. 上线策略
- 通过离线行为测试 + 切片评估后,仍要灰度/影子发布并配合 A/B 测试与灰度发布 与线上监控(ML 系统可观测性)。
常见误区
⚠️ 常见踩坑
只用一个总体准确率拍板上线,忽略子群表现与鲁棒性;或没有回归集,导致修复一个问题又引入旧问题。
追问
追问 1:不变性测试和方向性测试有什么区别?
不变性测试改的是与标签无关的内容,期望输出「不变」(如换人名);方向性测试改的是应影响结果的内容,期望输出「朝特定方向变化」(如加重负面词使负向分上升)。前者查鲁棒性/偏见,后者查模型是否学到正确因果方向。
追问 2:为什么切片评估很重要?
总体指标会被多数群体主导,掩盖少数子群的严重退化。按地域、语言、设备、用户分层评估能暴露公平性问题和长尾失效,避免「平均 95% 但某群体只有 60%」的隐患上线。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。