模型上线前要做哪些测试（不变量 / 方向性 / 最小功能）？

Question 1

Accepted Answer

超越单一总体准确率：做行为测试（CheckList） 只看一个全局准确率会掩盖具体能力短板和子群歧视。上线前应像测软件一样测模型「行为」。 1. 最小功能测试 MFT（Minimum Functionality Test） - 针对某项能力构造简单、明确的样例集，验证基础能力达标。如情感分析：「这家餐厅太棒了」必须判为正向。 2. 不变性测试 INV（Invariance） - 对输入做不改变标签的扰动，输出应不变。如把人名换成另一个人名、加入无关空格，预测不应翻转——检验鲁棒性与偏见。 3. 方向性测试 DIR（Directional） - 对输入做应单调影响结果的改动，输出应朝预期方向变化。如在负面评论后追加更强的负面词，负向分应升高。 4. 切片与回归 - 切片/子群评估：按地域、语言、用户群分组看指标，避免「平均不错、某群体很差」。 - 回归集：把历史 bug 样例固化为测试集，防止改一处坏一处。 5. 上线策略 - 通过离线行为测试 + 切片评估后，仍要灰度/影子发布并配合 A/B 测试与灰度发布 与线上监控（ML 系统可观测性）。

Question 2

不变性测试和方向性测试有什么区别？

Accepted Answer

不变性测试改的是与标签无关的内容，期望输出「不变」（如换人名）；方向性测试改的是应影响结果的内容，期望输出「朝特定方向变化」（如加重负面词使负向分上升）。前者查鲁棒性/偏见，后者查模型是否学到正确因果方向。

Question 3

为什么切片评估很重要？

Accepted Answer

总体指标会被多数群体主导，掩盖少数子群的严重退化。按地域、语言、设备、用户分层评估能暴露公平性问题和长尾失效，避免「平均 95% 但某群体只有 60%」的隐患上线。

模型上线前要做哪些测试（不变量 / 方向性 / 最小功能）？

核心要点

标准回答

常见误区

追问

延伸学习