为什么主流大模型多用 RMSNorm 与 Pre-LN？

Question 1

Accepted Answer

RMSNorm 为什么替代 LayerNorm LayerNorm 对每个 token 的特征先减均值、再除标准差，并有缩放和偏置两组参数。RMSNorm 砍掉了减均值这一步（不做 re-centering），只用激活的均方根 RMS 归一化，再乘一个可学习增益，通常也去掉偏置。好处是归约操作更少、参数更少，前向后向都更快；而实践表明去掉中心化几乎不损精度，反而在大模型上训练更稳定。LLaMA、Mistral、Qwen 等普遍采用。 Pre-LN 为什么替代 Post-LN 原始 Transformer 是 Post-LN：归一化放在残差相加之后。它在很深的网络里梯度容易不稳，需要小心的学习率预热（warmup）才训得动。Pre-LN 把归一化移到子层的输入处，让残差通路保持一条「干净」的恒等直连，梯度能较平稳地穿过所有层，深层模型更易收敛、对预热和学习率不那么敏感。 代价与折中 Pre-LN 的稳定性以表示能力略降为代价，因此常见做法是 Pre-LN + 在最后输出前再加一层归一化收尾，兼顾稳定与效果。详见 正则化：BatchNorm, LayerNorm, Dropout。

Question 2

RMSNorm 真比 LayerNorm 快很多吗？

Accepted Answer

单算子提速有限，但省去一次求均值的归约、减少参数与内存读写，在超大模型、海量调用下累积收益可观，且对精度无明显损失，故被广泛采用。

Question 3

Pre-LN 为何能免去学习率预热？

Accepted Answer

残差直连让梯度近似恒等地回传，深层不会指数级放大或衰减，初期就能用较大学习率稳定训练，而 Post-LN 早期梯度尺度失衡必须靠预热缓冲。

Question 4

DeepNorm 或 sandwich norm 是为了解决什么？

Accepted Answer

想兼得 Post-LN 的表示力与 Pre-LN 的稳定性。DeepNorm 通过给残差分支特定缩放使极深 Post-LN 可训；sandwich/夹心归一化在子层前后都加归一化进一步控数值。

为什么主流大模型多用 RMSNorm 与 Pre-LN？

核心要点

标准回答

常见误区

追问

延伸学习