L2 Regularization(L2 正则化)
就是训练时给每个权重加个『变大就扣分』的惩罚,强迫模型别把任何一个特征看得太重
亦作、亦称:L2 正则化 · Ridge · Ridge Regression · L2 penalty · Tikhonov regularization · Weight Decay · Ridge Regularization · L2 Penalty · 权重衰减
L2 正则化通过在损失函数中惩罚参数平方和来抑制模型过拟合,是从线性回归到大规模深度神经网络均广泛使用的基础正则化技术。理解它与权重衰减的微妙区别,是选择正确优化器配置的关键。
概述
L2 正则化是机器学习中最经典的正则化方法之一,通过在训练目标中增加参数范数惩罚来约束模型复杂度。
- 核心公式:损失 = 原始损失 + λ∑wᵢ²,其中 λ 为正则化强度超参数
- 目标:防止过拟合,使模型在训练集外的数据上也有良好表现
- 别名众多:在线性模型中称 Ridge 回归,在深度学习框架中常称 Weight Decay
- 适用范围:线性回归、逻辑回归、SVM、神经网络等几乎所有参数化模型
工作原理
L2 正则化通过惩罚大权重来平滑模型,其数学机制直观清晰。
- 梯度视角:对参数 wᵢ 求导后,更新规则变为 wᵢ ← wᵢ(1 − αλ) − α·∇L,参数在每步更新前都被缩小一个固定比例
- 几何视角:可行域被约束为以原点为圆心的球体(hypersphere),最优解在球面与原始等高线的切点处
- 贝叶斯视角:等价于对参数施加高斯先验(零均值),最大化后验等价于最小化 L2 惩罚损失
- 效果:权重均匀收缩趋近零,但不会精确等于零(这是与 L1 的关键区别)
变体与相关形式
L2 正则化在不同场景下有多种变体实现形式。
- Ridge 回归:经典线性回归 + L2 惩罚,有解析解:w = (XᵀX + λI)⁻¹Xᵀy,常用于处理多重共线性
- Elastic Net:L1 与 L2 惩罚的线性组合,兼顾稀疏性与权重平滑,适合特征高度相关且需要特征选择的场景
- Weight Decay(SGD 下):与 L2 正则化数学等价,参数更新时直接乘以衰减因子 (1 − αλ)
- AdamW:将权重衰减与梯度更新解耦,避免自适应优化器中 L2 惩罚被学习率缩放导致的正则化效果失真
应用场景
L2 正则化在各类机器学习任务中均有广泛应用。
- 多重共线性处理:特征高度相关时,普通最小二乘法的解不稳定,Ridge 回归能显著改善条件数
- 高维小样本:特征维度远超样本量(如基因组数据),L2 约束防止解的爆炸
- 神经网络训练:通过 weight_decay 参数(如 PyTorch
AdamW(model.parameters(), weight_decay=1e-4))隐式施加 L2 约束 - 预训练模型微调:适度的权重衰减防止微调过程中灾难性遗忘,同时抑制对小数据集的过拟合
与 L1 正则化的区别
L1 与 L2 正则化各有适用场景,理解其差异有助于正确选择。
- 稀疏性:L1(Lasso)能将部分权重精确压缩至零,实现自动特征选择;L2 只能使权重趋小,不产生稀疏解
- 几何形状:L1 约束域是菱形(diamond),角点在坐标轴上易产生零解;L2 约束域是光滑球体,切点通常不在轴上
- 计算性质:L2 处处可微,梯度简洁(2λw);L1 在零点不可微,需次梯度或坐标下降
- 选择建议:需要特征选择或模型解释性时用 L1;特征都重要但需要压制量级时用 L2;两者兼顾用 Elastic Net
局限与常见误区
使用 L2 正则化时需注意若干重要陷阱和误区。
- 误区:weight_decay = L2 正则化:在 Adam/RMSProp 等自适应优化器中两者不等价——L2 通过修改梯度实现,会被自适应缩放;weight decay(AdamW 方式)直接作用于参数,更稳定
- 误区:λ 越大越好:过大的 λ 会使所有权重趋近于零,导致欠拟合,模型丧失表达能力
- 局限:不产生稀疏解:当真实问题只有少数特征重要时,L2 无法自动淘汰无关特征,L1 更合适
- 局限:对离群点敏感:平方惩罚使大权重受到更强惩罚,若目标权重本身较大(如嵌入层),L2 可能过度压制
发展脉络
L2 正则化的理论与工程实践历经数十年演进。
- 1943/1963:苏联数学家 Tikhonov 提出求解不适定问题的正则化方法(Tikhonov 正则化),奠定 L2 惩罚的数学基础
- 1970:Hoerl 与 Kennard 在 Technometrics 发表 Ridge Regression,将 L2 正则化引入统计回归领域
- 1990s–2000s:L2 正则化成为 SVM、逻辑回归等经典模型的标准配置,广泛用于防止过拟合
- 2012 年后:深度学习兴起,weight_decay 参数成为训练神经网络的标准超参数之一
- 2019:Loshchilov & Hutter 提出 AdamW(ICLR 2019),揭示 L2 正则化与权重衰减在自适应优化器中的本质区别,推动业界转向解耦权重衰减方案
常见误解
日常交流中容易听到的简化说法,未必准确,但能帮助理解误解从何而来。
- 「就是训练时给每个权重加个『变大就扣分』的惩罚,强迫模型别把任何一个特征看得太重」
- 「和 L1 的区别在于它不会把权重彻底砍到零,而是让所有权重都小而均匀」
- 「深度学习里写的 weight_decay=1e-4 其实大多数时候就是在做 L2 正则化」
相关术语
和本术语关联紧密的其他词条,便于串联理解。
延伸阅读
从知识库精选 3 篇文章,帮助深入理解该术语。
外部参考
维基百科:查看「L2 Regularization」词条本页内容为本站原创撰写;维基百科链接仅作延伸参考。