L2 Regularization（L2 正则化）

就是训练时给每个权重加个『变大就扣分』的惩罚，强迫模型别把任何一个特征看得太重

亦作、亦称：L2 正则化 · Ridge · Ridge Regression · L2 penalty · Tikhonov regularization · Weight Decay · Ridge Regularization · L2 Penalty · 权重衰减

L2 正则化通过在损失函数中惩罚参数平方和来抑制模型过拟合，是从线性回归到大规模深度神经网络均广泛使用的基础正则化技术。理解它与权重衰减的微妙区别，是选择正确优化器配置的关键。

概述

L2 正则化是机器学习中最经典的正则化方法之一，通过在训练目标中增加参数范数惩罚来约束模型复杂度。

L2 正则化通过惩罚大权重来平滑模型，其数学机制直观清晰。

L2 正则化在不同场景下有多种变体实现形式。

L2 正则化在各类机器学习任务中均有广泛应用。

多重共线性处理：特征高度相关时，普通最小二乘法的解不稳定，Ridge 回归能显著改善条件数
高维小样本：特征维度远超样本量（如基因组数据），L2 约束防止解的爆炸
神经网络训练：通过 weight_decay 参数（如 PyTorch AdamW(model.parameters(), weight_decay=1e-4)）隐式施加 L2 约束
预训练模型微调：适度的权重衰减防止微调过程中灾难性遗忘，同时抑制对小数据集的过拟合

L1 与 L2 正则化各有适用场景，理解其差异有助于正确选择。

使用 L2 正则化时需注意若干重要陷阱和误区。

误区：weight_decay = L2 正则化：在 Adam/RMSProp 等自适应优化器中两者不等价——L2 通过修改梯度实现，会被自适应缩放；weight decay（AdamW 方式）直接作用于参数，更稳定
误区：λ 越大越好：过大的 λ 会使所有权重趋近于零，导致欠拟合，模型丧失表达能力
局限：不产生稀疏解：当真实问题只有少数特征重要时，L2 无法自动淘汰无关特征，L1 更合适
局限：对离群点敏感：平方惩罚使大权重受到更强惩罚，若目标权重本身较大（如嵌入层），L2 可能过度压制

L2 正则化的理论与工程实践历经数十年演进。

1943/1963：苏联数学家 Tikhonov 提出求解不适定问题的正则化方法（Tikhonov 正则化），奠定 L2 惩罚的数学基础
1970：Hoerl 与 Kennard 在 Technometrics 发表 Ridge Regression，将 L2 正则化引入统计回归领域
1990s–2000s：L2 正则化成为 SVM、逻辑回归等经典模型的标准配置，广泛用于防止过拟合
2012 年后：深度学习兴起，weight_decay 参数成为训练神经网络的标准超参数之一
2019：Loshchilov & Hutter 提出 AdamW（ICLR 2019），揭示 L2 正则化与权重衰减在自适应优化器中的本质区别，推动业界转向解耦权重衰减方案

日常交流中容易听到的简化说法，未必准确，但能帮助理解误解从何而来。

从知识库精选 3 篇文章，帮助深入理解该术语。

本页内容为本站原创撰写；维基百科链接仅作延伸参考。