AdamW 与 Adam 的区别是什么（权重衰减解耦）？

Question 1

Accepted Answer

问题根源 Adam 中常把 L2 正则实现为「在梯度里加上 λθ」。但 Adam 会用一阶矩 m 和二阶矩 v 对梯度做自适应缩放，于是 λθ 这一项也被 v 缩放——梯度历史大的参数，正则项被除得更小，相当于衰减更弱。结果是 L2 正则与权重衰减在 Adam 里不再等价，正则强度被自适应机制扭曲。 AdamW 的修正 AdamW（Decoupled Weight Decay）把权重衰减从梯度中解耦：自适应更新照常只作用于真实梯度，权重衰减则在参数更新时单独施加——直接对参数减去 lr·λ·θ。这样衰减对每个参数一致且可控，恢复了「权重衰减」的本意。 实践意义 AdamW 通常带来更好的泛化和更稳定的超参，是现代 Transformer 训练的事实标准。注意 weight decay 与 learning rate 此时应分别调节。

Question 2

为什么 SGD 下 L2 正则等价于权重衰减？

Accepted Answer

SGD 更新为 θ ← θ - lr·g。若把 L2 项 λθ 加进梯度，更新变成 θ ← θ - lr·(g + λθ) = θ - lr·g - lr·λθ，后一项恰好就是权重衰减。因为没有自适应缩放，加进梯度和单独衰减完全等价。Adam 因为有逐参数的二阶矩缩放，破坏了这个等价关系。

Question 3

AdamW 中哪些参数通常不做 weight decay？

Accepted Answer

通常对 bias、LayerNorm/BatchNorm 的 gain 和 bias 等一维参数不施加权重衰减，只对权重矩阵衰减。因为对归一化层的缩放/平移参数衰减会干扰其正常的尺度调节，且这些参数量少、不易过拟合。实现上一般按参数 shape 或名字分组配置。

AdamW 与 Adam 的区别是什么（权重衰减解耦）？

核心要点

标准回答

常见误区

追问

延伸学习