手撕代码：实现 Layer Normalization

Question 1

手撕代码：实现 Layer Normalization？

Accepted Answer

Layer Normalization 在每个样本内部、沿特征维度做标准化，因此完全不依赖 batch 大小，训练和推理行为一致，特别适合 RNN 和 Transformer 这类变长序列场景。对每个样本计算其特征维上的均值 μ 和方差 σ²，做 (x−μ)/sqrt(σ²+eps) 归一化，再用与特征维同形状的可学习参数 γ、β 做逐元素缩放和平移。下面用 NumPy 实现，对 (..., D) 张量沿最后一维归一化：

Question 2

LayerNorm 与 BatchNorm 的核心区别是什么？

Accepted Answer

BatchNorm 沿 batch 维统计、依赖批大小、训练与推理用不同统计量（需维护 running 统计）；LayerNorm 逐样本沿特征维统计、与 batch 无关、训推一致。前者多用于 CNN，后者是 Transformer/RNN 的标配，对变长序列和小 batch 更鲁棒。

Question 3

什么是 RMSNorm，相比 LayerNorm 有什么优势？

Accepted Answer

RMSNorm 去掉了减均值（中心化）这一步，只用特征的均方根 RMS = sqrt(mean(x²)+eps) 做归一化，再乘以可学习 γ。它少算一次均值、参数更少、速度更快，且实验表明效果与 LayerNorm 相当，被 LLaMA、Qwen 等大模型广泛采用。

手撕代码：实现 Layer Normalization

核心要点

标准回答

常见误区

追问

延伸学习