Regularization(正则化)

正则化就是给模型加个『紧箍咒』,让它不敢把参数调得太大、太复杂,逼着它学到真正有用的规律而不是死记训练数据。

亦作、亦称:正则化 · regularisation · 正规化 · 权重衰减(Weight Decay)

正则化通过在损失函数中引入惩罚项来限制模型复杂度,是解决过拟合问题的核心工具之一。从 1970 年代的 Ridge 回归到现代深度学习中的 Dropout,正则化思想贯穿整个机器学习发展史。

概述

正则化通过在损失函数中引入惩罚项来限制模型复杂度,是解决过拟合问题的核心工具之一。从 1970 年代的 Ridge 回归到现代深度学习中的 Dropout,正则化思想贯穿整个机器学习发展史。

什么是正则化

正则化是防止模型「死记硬背」训练数据而无法泛化到新数据的核心手段。

  • 过拟合:模型在训练集上误差极低,但在测试集上误差明显偏高
  • 正则化目标:在原始损失 L(θ) 之外加入惩罚项 Ω(θ),使总目标变为 L(θ) + λΩ(θ)
  • λ(正则化系数):控制惩罚强度,越大模型越简单,但过大会造成欠拟合
  • 本质:以引入少量偏差(bias)为代价,大幅降低方差(variance),改善偏差-方差权衡

工作原理

正则化通过修改优化目标,使梯度下降过程中参数受到额外约束。

  • L2 正则化:Ω(θ) = Σwᵢ²,惩罚大权重,权重更新时每步都会向零衰减(权重衰减 Weight Decay
  • L1 正则化:Ω(θ) = Σ|wᵢ|,梯度为常数符号,使部分权重精确收敛到零,产生稀疏解
  • 贝叶斯视角:L2 对应权重的高斯先验,L1 对应拉普拉斯先验,正则化等价于 MAP 估计
  • 约束视角:加惩罚等价于在参数空间中施加约束球(L2 为圆球,L1 为菱形),影响最优解的落点

主要类型与变体

不同场景下有多种正则化方法可选。

  • L1(Lasso):产生稀疏权重,适合高维特征选择,不可导点需次梯度处理
  • L2(Ridge/Tikhonov):权重均匀缩小,计算友好,对相关特征处理稳健
  • Elastic Net:L1+L2 线性组合,兼顾稀疏性和稳定性,由 Zou & Hastie(2005)提出
  • Dropout:训练时随机屏蔽神经元(概率 p),等价于对模型集成,2014 年由 Srivastava 等提出
  • BatchNorm / LayerNorm:通过归一化激活值隐式起到正则化效果,减少对 Dropout 的依赖
  • 数据增强(Data Augmentation):通过扩充训练分布间接正则化,在 CV/NLP 中广泛应用

应用场景

正则化在各类机器学习任务中不可或缺。

  • 线性/逻辑回归:L2 是默认选择(sklearn LogisticRegression 默认 C=1 即 L2);特征选择时用 L1
  • 树模型(如 XGBoost):通过叶子数量惩罚、权重惩罚(γ、λ 参数)实现正则化
  • 深度神经网络:Dropout(fc 层)+ BatchNorm(卷积/Transformer)是标准组合
  • 大语言模型微调:L2 weight decay 和梯度裁剪是 SFT/RLHF 训练的必备正则手段
  • CV 任务:数据增强(旋转、裁剪、Mixup)是最高效的正则化方式之一

局限与常见误区

正则化并非万能,误用会适得其反。

  • 误区:λ 越大越好:过强正则化导致欠拟合,模型无法学到有效特征
  • 误区:正则化可替代数据:正则化能缓解过拟合,但根本解决方案仍是增加训练数据
  • Dropout 与 BatchNorm 同用风险:两者组合在某些情况下会相互干扰,需谨慎调整 Dropout 概率
  • L1 不可导问题:在零点梯度未定义,实际训练中需使用次梯度(subgradient)或软阈值技巧
  • 超参数敏感性:λ 需交叉验证调整,错误的 λ 选择会同时损害训练和测试性能

发展脉络

正则化思想从数学反问题发展到现代深度学习,历经数十年演进。

  • 1963 年:Andrey Tikhonov 提出 Tikhonov 正则化,解决数学中的不适定问题(ill-posed problem)
  • 1970 年:Hoerl & Kennard 提出 Ridge Regression(L2 正则化),引入机器学习领域
  • 1996 年:Robert Tibshirani 提出 Lasso(L1 正则化),实现特征自动选择
  • 2005 年:Zou & Hastie 提出 Elastic Net,融合 L1 与 L2 的优点
  • 2014 年:Srivastava 等提出 Dropout,成为深度学习时代最具影响力的正则化方法
  • 2015 年:Ioffe & Szegedy 提出 Batch Normalization,在归一化的同时带来正则化效果
  • 2020 年代:在大模型训练中,weight decay + gradient clipping 成为标准正则化配置

常见误解

日常交流中容易听到的简化说法,未必准确,但能帮助理解误解从何而来。

  • 「正则化就是给模型加个『紧箍咒』,让它不敢把参数调得太大、太复杂,逼着它学到真正有用的规律而不是死记训练数据。」
  • 「L1 和 L2 傻傻分不清?记住:L1 会把没用的权重直接砍成零(稀疏),L2 只是把权重压小但不会归零。」
  • 「Dropout 其实也是一种正则化——随机关掉一些神经元,逼着网络不能依赖某几个节点,泛化自然变好。」

相关术语

和本术语关联紧密的其他词条,便于串联理解。

延伸阅读

从知识库精选 3 篇文章,帮助深入理解该术语。

  1. 1

    正则化技术:L1, L2, Dropout

    从岭回归到弹性网,掌握防止过拟合的正则化技术(更新于 2026-06-09:新增现代正则化技术章节)

  2. 2

    正则化:BatchNorm, LayerNorm, Dropout

    从 Dropout 到 LayerNorm,掌握防止过拟合的核心技术

  3. 3

    XGBoost 原理与调参指南

    深入 XGBoost 的目标函数推导、正则化策略和实用调参技巧

外部参考

维基百科:查看「Regularization」词条

本页内容为本站原创撰写;维基百科链接仅作延伸参考。