训练出现 NaN / Inf，如何定位原因？

Question 1

Accepted Answer

先确定 NaN 最先出现在哪里，再对症下药（独占一行） 打开 torch.autograd.set_detect_anomaly(True) 或逐步打印，判断是输入数据、前向某层激活、loss，还是反向梯度第一个变成 NaN/Inf，缩小范围后再排查具体原因。 数值不稳定的运算 最常见是 log(0)、除以 0、sqrt(负数)、softmax/exp 溢出。修法：log 加小 eps、用框架自带的「带 logits」损失（如 CrossEntropy 直接吃 logits）避免手写 exp/log、对分母加 eps，并做数值范围 clamp。 梯度爆炸 学习率过大会让梯度发散为 Inf。对策：降低学习率、加 warmup、加梯度裁剪 clip_grad_norm；观察梯度范数是否在某步骤突然飙升。 混合精度与脏数据 FP16 混合精度 动态范围小，需配 loss scaling（GradScaler），或改用动态范围更大的 BF16；同时检查输入/标签里是否本就含 NaN、Inf 或异常大值，脏数据会直接污染前向。

Question 2

为什么 FP16 容易出 NaN，而 BF16 相对稳定？

Accepted Answer

FP16 指数位少、动态范围窄，小梯度容易下溢为 0、大值容易上溢为 Inf，所以需要 loss scaling 把梯度放大到可表示范围。BF16 指数位与 FP32 相同、动态范围大得多（只是精度低），不易溢出，因此训练大模型时更常用 BF16。

Question 3

anomaly detection 开销大，生产长训练怎么排查 NaN？

Accepted Answer

平时关闭 anomaly detection，只在检测到 loss 为 NaN 时回退到最近 checkpoint，开启 detect_anomaly 重放那几步定位；同时常驻监控梯度范数与 loss，设阈值告警并自动跳过/裁剪异常 batch，避免整次训练作废。

训练出现 NaN / Inf，如何定位原因？

核心要点

标准回答

常见误区

追问

延伸学习