深度学习优化中的局部最优与鞍点是什么问题？

Question 1

Accepted Answer

非凸与临界点 神经网络损失曲面高度非凸，含大量梯度为零的临界点，包括局部极小、局部极大和鞍点。直觉上人们担心被困在局部极小，但理论与实验表明，在高维参数空间中这并非主要问题。 为什么鞍点是主因 一个临界点是局部极小，要求 Hessian 所有特征值都为正；维度越高，所有特征值同号的概率越低，因此真正的坏局部极小极为罕见，绝大多数临界点是鞍点——某些方向曲率为正、某些为负。此外大片近乎平坦的区域（梯度极小）会让训练长时间停滞，比鞍点更棘手。 如何逃离 鞍点处梯度近 0，纯梯度下降会停滞，但：SGD 的小批量采样引入随机噪声，能把参数推离鞍点；动量积累历史方向，可冲过平坦区；Adam 等自适应方法在不同方向用不同步长，也有助加速逃离。

Question 2

如何判断一个临界点是鞍点还是极小？

Accepted Answer

看该点 Hessian 矩阵的特征值：全为正是局部极小，全为负是局部极大，正负混合则是鞍点。实践中不会真去算 Hessian，而是观察 loss 是否长时间停滞、能否通过加噪声 / 重启 / 调学习率继续下降。

Question 3

为什么 SGD 反而比全量梯度下降更不容易卡住？

Accepted Answer

SGD 每步只用小批量估计梯度，带来随机扰动，相当于在优化轨迹上注入噪声，能把参数从鞍点或平坦区推开；而全量梯度下降在临界点处梯度精确为零，更容易停滞。

深度学习优化中的局部最优与鞍点是什么问题？

核心要点

标准回答

常见误区

追问

延伸学习