什么是梯度消失问题？如何避免？

Q: ResNet 的跳跃连接如何帮助梯度？

y = F(x) + x 使反向时梯度至少有一条恒等路径 ∂y/∂x 含 +1 项，缓解连乘衰减；同时解决深层「退化」（更深反而更差）问题。

Q: 如何诊断训练中是否梯度消失？

记录各层 grad norm 或权重更新幅度；若靠前层长期近零而 loss 不降，可能消失。可视化工具如 TensorBoard histogram；可尝试更小网络验证。

Q: BatchNorm 为何能缓解？

归一化使每层输入分布稳定，减少落入饱和区概率；同时允许更大学习率，间接改善梯度流动。注意小 batch 时 BN 统计噪声大。

Question 1

什么是梯度消失问题？如何避免？

Accepted Answer

梯度消失：深层网络 反向传播 时，梯度经多层连乘 ∂σ/∂z · W^T，若因子 < 1 则指数衰减，靠前层参数几乎得不到更新，训练停滞。 成因： - 饱和激活（Sigmoid/Tanh 两端梯度≈0） - 权重初始化不当（过大→爆炸，过小→消失） - 网络过深 且无跳跃路径 缓解策略： 方法 机制 ------ ------ ReLU 族 正区间梯度为 1 残差连接 ResNet 梯度直达短路 Batch Normalization 稳定激活分布 LSTM/GRU 门控线性传递 Xavier/He 初始化 保持方差稳定 梯度裁剪 防爆炸（clip norm） 预训练+微调 分层解冻 与梯度爆炸（梯度→∞）相对，后者用裁剪、较小 lr 处理。现代 Transformer 还用 Pre-LN、残差、AdamW 保持稳定。详见 反向传播原理。

Question 2

ResNet 的跳跃连接如何帮助梯度？

Accepted Answer

y = F(x) + x 使反向时梯度至少有一条恒等路径 ∂y/∂x 含 +1 项，缓解连乘衰减；同时解决深层「退化」（更深反而更差）问题。

Question 3

如何诊断训练中是否梯度消失？

Accepted Answer

记录各层 grad norm 或权重更新幅度；若靠前层长期近零而 loss 不降，可能消失。可视化工具如 TensorBoard histogram；可尝试更小网络验证。

Question 4

BatchNorm 为何能缓解？

Accepted Answer

归一化使每层输入分布稳定，减少落入饱和区概率；同时允许更大学习率，间接改善梯度流动。注意小 batch 时 BN 统计噪声大。

什么是梯度消失问题？如何避免？

核心要点

简要回答

标准回答

常见误区

追问

延伸学习


方法	机制
ReLU 族	正区间梯度为 1
残差连接 ResNet	梯度直达短路
Batch Normalization	稳定激活分布
LSTM/GRU	门控线性传递
Xavier/He 初始化	保持方差稳定
梯度裁剪	防爆炸（clip norm）
预训练+微调	分层解冻