Batch Normalization 的作用是什么？

Question 1

Accepted Answer

动机

深层网络中，每层输入的分布会随前层参数更新而不断漂移（内部协变量偏移），迫使后层反复适应，训练慢且对学习率敏感。

做法

在层内对 mini-batch 归一化：用当前 batch 估计的 μ、σ 把激活标准化为零均值单位方差，再经可学习的 γ（缩放）、β（平移）仿射变换，避免归一化破坏原有表达能力。

训练与推理的差异

与 LayerNorm 对比

BN 沿 batch 维度统计，依赖较大 batch；LayerNorm 沿单样本的特征维度统计、与 batch 无关，因此在变长序列的 Transformer、RNN 中成为主流。

Question 2

小 batch 时 BN 有什么问题？

Accepted Answer

batch 统计量噪声大，running mean/var 不稳定，BN 层行为与推理不一致。小 batch 常用 GroupNorm、LayerNorm 或增大有效 batch（梯度累积、SyncBN）。

Question 3

GroupNorm 适用场景？

Accepted Answer

batch size 小或 batch 语义无关时（检测、分割、视频单帧）；不依赖 batch 维度统计，训练/推理一致。大 batch 图像分类 BN 往往仍足够。

核心要点