训练时 loss 不下降，如何系统排查？

Question 1

Accepted Answer

先复现并做 sanity check，再分层定位（独占一行） 不要一上来调超参。先固定随机种子、拿一个极小子集（几十条）训练，看模型能否过拟合到接近 0 loss：能，说明训练链路通，问题在数据规模/泛化；不能，说明数据或代码有硬 bug。 数据层 检查标签是否错位或类别映射错误、输入归一化/标准化是否遗漏、是否有大量脏数据或常数特征、是否 shuffle，以及 DataLoader 取出的 batch 是否符合预期（打印一个 batch）。 代码层 确认 loss 函数实现与用法正确（如分类用 CrossEntropy 时别重复 softmax）、梯度是否回传：检查 requires_grad、有没有误用 detach()、optimizer.zero_grad()/loss.backward()/optimizer.step() 顺序是否齐全、参数前后是否真的变化。 模型层 排查学习率量级（最常见，先扫 1e-2~1e-5）、初始化与激活是否导致饱和/死神经元、是否梯度消失（看各层梯度范数）、归一化层（BatchNorm/LayerNorm）是否设置正确。优化器与调度器配置也一并核对。

Question 2

小批数据能过拟合、但全量训练 loss 还是不降，可能是什么？

Accepted Answer

说明链路没问题，瓶颈在规模与优化：学习率对全量不合适（常需更大 batch 配合 warmup/调度）、数据噪声或标签质量差、任务对当前模型容量太难、或正则/数据增强过强压住了收敛。先降增强、调 LR 与 warmup 再观察。

Question 3

怎么快速判断梯度到底有没有回传？

Accepted Answer

在 backward 后遍历参数打印 param.grad 是否为 None 或全 0，并比较一步更新前后参数值是否改变；也可打印各层梯度范数，若某层之后梯度恒为 0，多半是该处被 detach 或 requires_grad=False 截断了计算图。

训练时 loss 不下降，如何系统排查？

核心要点

标准回答

常见误区

追问

延伸学习