L2 Regularization(L2 正则化)

就是训练时给每个权重加个『变大就扣分』的惩罚,强迫模型别把任何一个特征看得太重

亦作、亦称:L2 正则化 · Ridge · Ridge Regression · L2 penalty · Tikhonov regularization · Weight Decay · Ridge Regularization · L2 Penalty · 权重衰减

L2 正则化通过在损失函数中惩罚参数平方和来抑制模型过拟合,是从线性回归到大规模深度神经网络均广泛使用的基础正则化技术。理解它与权重衰减的微妙区别,是选择正确优化器配置的关键。

概述

L2 正则化是机器学习中最经典的正则化方法之一,通过在训练目标中增加参数范数惩罚来约束模型复杂度。

  • 核心公式:损失 = 原始损失 + λ∑wᵢ²,其中 λ 为正则化强度超参数
  • 目标:防止过拟合,使模型在训练集外的数据上也有良好表现
  • 别名众多:在线性模型中称 Ridge 回归,在深度学习框架中常称 Weight Decay
  • 适用范围:线性回归、逻辑回归、SVM、神经网络等几乎所有参数化模型

工作原理

L2 正则化通过惩罚大权重来平滑模型,其数学机制直观清晰。

  • 梯度视角:对参数 wᵢ 求导后,更新规则变为 wᵢ ← wᵢ(1 − αλ) − α·∇L,参数在每步更新前都被缩小一个固定比例
  • 几何视角:可行域被约束为以原点为圆心的球体(hypersphere),最优解在球面与原始等高线的切点处
  • 贝叶斯视角:等价于对参数施加高斯先验(零均值),最大化后验等价于最小化 L2 惩罚损失
  • 效果:权重均匀收缩趋近零,但不会精确等于零(这是与 L1 的关键区别)

变体与相关形式

L2 正则化在不同场景下有多种变体实现形式。

  • Ridge 回归:经典线性回归 + L2 惩罚,有解析解:w = (XᵀX + λI)⁻¹Xᵀy,常用于处理多重共线性
  • Elastic Net:L1 与 L2 惩罚的线性组合,兼顾稀疏性与权重平滑,适合特征高度相关且需要特征选择的场景
  • Weight Decay(SGD 下):与 L2 正则化数学等价,参数更新时直接乘以衰减因子 (1 − αλ)
  • AdamW:将权重衰减与梯度更新解耦,避免自适应优化器中 L2 惩罚被学习率缩放导致的正则化效果失真

应用场景

L2 正则化在各类机器学习任务中均有广泛应用。

  • 多重共线性处理:特征高度相关时,普通最小二乘法的解不稳定,Ridge 回归能显著改善条件数
  • 高维小样本:特征维度远超样本量(如基因组数据),L2 约束防止解的爆炸
  • 神经网络训练:通过 weight_decay 参数(如 PyTorch AdamW(model.parameters(), weight_decay=1e-4))隐式施加 L2 约束
  • 预训练模型微调:适度的权重衰减防止微调过程中灾难性遗忘,同时抑制对小数据集的过拟合

与 L1 正则化的区别

L1 与 L2 正则化各有适用场景,理解其差异有助于正确选择。

  • 稀疏性:L1(Lasso)能将部分权重精确压缩至零,实现自动特征选择;L2 只能使权重趋小,不产生稀疏解
  • 几何形状:L1 约束域是菱形(diamond),角点在坐标轴上易产生零解;L2 约束域是光滑球体,切点通常不在轴上
  • 计算性质:L2 处处可微,梯度简洁(2λw);L1 在零点不可微,需次梯度或坐标下降
  • 选择建议:需要特征选择或模型解释性时用 L1;特征都重要但需要压制量级时用 L2;两者兼顾用 Elastic Net

局限与常见误区

使用 L2 正则化时需注意若干重要陷阱和误区。

  • 误区:weight_decay = L2 正则化:在 Adam/RMSProp 等自适应优化器中两者不等价——L2 通过修改梯度实现,会被自适应缩放;weight decay(AdamW 方式)直接作用于参数,更稳定
  • 误区:λ 越大越好:过大的 λ 会使所有权重趋近于零,导致欠拟合,模型丧失表达能力
  • 局限:不产生稀疏解:当真实问题只有少数特征重要时,L2 无法自动淘汰无关特征,L1 更合适
  • 局限:对离群点敏感:平方惩罚使大权重受到更强惩罚,若目标权重本身较大(如嵌入层),L2 可能过度压制

发展脉络

L2 正则化的理论与工程实践历经数十年演进。

  • 1943/1963:苏联数学家 Tikhonov 提出求解不适定问题的正则化方法(Tikhonov 正则化),奠定 L2 惩罚的数学基础
  • 1970:Hoerl 与 Kennard 在 Technometrics 发表 Ridge Regression,将 L2 正则化引入统计回归领域
  • 1990s–2000s:L2 正则化成为 SVM、逻辑回归等经典模型的标准配置,广泛用于防止过拟合
  • 2012 年后:深度学习兴起,weight_decay 参数成为训练神经网络的标准超参数之一
  • 2019:Loshchilov & Hutter 提出 AdamW(ICLR 2019),揭示 L2 正则化与权重衰减在自适应优化器中的本质区别,推动业界转向解耦权重衰减方案

常见误解

日常交流中容易听到的简化说法,未必准确,但能帮助理解误解从何而来。

  • 「就是训练时给每个权重加个『变大就扣分』的惩罚,强迫模型别把任何一个特征看得太重」
  • 「和 L1 的区别在于它不会把权重彻底砍到零,而是让所有权重都小而均匀」
  • 「深度学习里写的 weight_decay=1e-4 其实大多数时候就是在做 L2 正则化」

相关术语

和本术语关联紧密的其他词条,便于串联理解。

延伸阅读

从知识库精选 3 篇文章,帮助深入理解该术语。

  1. 1

    正则化技术:L1, L2, Dropout

    从岭回归到弹性网,掌握防止过拟合的正则化技术(更新于 2026-06-09:新增现代正则化技术章节)

  2. 2

    正则化:BatchNorm, LayerNorm, Dropout

    从 Dropout 到 LayerNorm,掌握防止过拟合的核心技术

  3. 3

    优化器:SGD, Momentum, Adam, AdamW

    从梯度下降到 AdamW,系统梳理深度学习优化器演进与选择策略

外部参考

维基百科:查看「L2 Regularization」词条

本页内容为本站原创撰写;维基百科链接仅作延伸参考。