机器学习代码如何写单元测试？

Question 1

机器学习代码如何写单元测试？

Accepted Answer

测确定性部分，不断言精度数值 模型训练本身带随机性，直接断言「准确率 > 0.9」既不稳定也不是单元测试该做的事。单元测试应锁定可确定验证的环节。 1. 数据与特征 - 归一化、分桶、缺失值填充等转换：给定输入，断言输出精确等于预期。 - 边界用例：空输入、单样本、含异常值。 2. 形状与数值不变量 - 前向输出形状是否符合 (batch, num_classes)。 - 概率输出范围在 [0,1]、softmax 每行和为 1、无 NaN/Inf。 3. loss 与梯度 - 用已知输入手算 loss 对比；调用一次 backward 后断言关键参数梯度非 0、量级合理。 ``python def test_forward_shape(): torch.manual_seed(0) x = torch.randn(4, 10) out = model(x) assert out.shape == (4, 3) assert torch.allclose(out.softmax(-1).sum(-1), torch.ones(4)) `` 4. Sanity check：让模型在一小批样本上过拟合，loss 应能降到接近 0；降不下去说明管线有 bug。

Question 2

为什么不直接在单元测试里断言模型准确率？

Accepted Answer

准确率依赖随机初始化、数据顺序、硬件，结果不确定，会造成测试 flaky；且训练慢，不适合频繁运行。精度应放在独立的评测/回归流程里跑，单元测试只覆盖确定性逻辑。

Question 3

「过拟合一小批」具体怎么做、能发现什么问题？

Accepted Answer

取 1~2 个 batch 反复训练若干步，正常情况下 loss 应快速逼近 0。若降不下来，说明前向/反向、loss 定义、标签对齐、学习率或数据管线存在 bug，是廉价又有效的冒烟测试。

机器学习代码如何写单元测试？

核心要点

标准回答

常见误区

追问

延伸学习