手撕代码：实现 Batch Normalization 前向

Question 1

手撕代码：实现 Batch Normalization 前向？

Accepted Answer

Batch Normalization 在每个特征维度上、沿批次方向做标准化，缓解内部协变量偏移、让训练更稳更快。训练时用当前 mini-batch 的均值与方差归一化输入：(x−μ)/sqrt(σ²+eps)，eps 防止除零；再乘以可学习参数 γ、加上 β 恢复表达能力。同时用动量维护全局 running_mean 与 running_var，供推理时使用——推理不能依赖单个 batch 的统计量。下面给出对 (N, D) 输入的 NumPy 前向实现：

Question 2

BatchNorm 为什么对小 batch 效果差？有何替代？

Accepted Answer

小 batch 时用少量样本估计的 μ/σ² 噪声大、不稳定，导致训练退化。替代方案有 LayerNorm（沿特征维，与 batch 无关，Transformer 常用）、GroupNorm（按通道分组，检测/分割友好）、InstanceNorm 等，它们都不依赖 batch 大小。

Question 3

BatchNorm 放在激活函数前还是后？

Accepted Answer

原论文将 BN 放在线性层之后、激活函数之前（Conv/FC → BN → ReLU），这样归一化的是仍近似线性的预激活值。实践中也有「BN 放激活后」的变体，差异不大；关键是保持训练与推理一致，且 BN 前的线性层通常可省略 bias（被 β 吸收）。

手撕代码：实现 Batch Normalization 前向

核心要点

标准回答

常见误区

追问

延伸学习