Regularization（正则化）

正则化就是给模型加个『紧箍咒』，让它不敢把参数调得太大、太复杂，逼着它学到真正有用的规律而不是死记训练数据。

亦作、亦称：正则化 · regularisation · 正规化 · 权重衰减（Weight Decay）

正则化通过在损失函数中引入惩罚项来限制模型复杂度，是解决过拟合问题的核心工具之一。从 1970 年代的 Ridge 回归到现代深度学习中的 Dropout，正则化思想贯穿整个机器学习发展史。

概述

什么是正则化

正则化是防止模型「死记硬背」训练数据而无法泛化到新数据的核心手段。

过拟合：模型在训练集上误差极低，但在测试集上误差明显偏高
正则化目标：在原始损失 L(θ) 之外加入惩罚项 Ω(θ)，使总目标变为 L(θ) + λΩ(θ)
λ（正则化系数）：控制惩罚强度，越大模型越简单，但过大会造成欠拟合
本质：以引入少量偏差（bias）为代价，大幅降低方差（variance），改善偏差-方差权衡

工作原理

正则化通过修改优化目标，使梯度下降过程中参数受到额外约束。

L2 正则化：Ω(θ) = Σwᵢ²，惩罚大权重，权重更新时每步都会向零衰减（权重衰减 Weight Decay）
L1 正则化：Ω(θ) = Σ|wᵢ|，梯度为常数符号，使部分权重精确收敛到零，产生稀疏解
贝叶斯视角：L2 对应权重的高斯先验，L1 对应拉普拉斯先验，正则化等价于 MAP 估计
约束视角：加惩罚等价于在参数空间中施加约束球（L2 为圆球，L1 为菱形），影响最优解的落点

主要类型与变体

不同场景下有多种正则化方法可选。

L1（Lasso）：产生稀疏权重，适合高维特征选择，不可导点需次梯度处理
L2（Ridge/Tikhonov）：权重均匀缩小，计算友好，对相关特征处理稳健
Elastic Net：L1+L2 线性组合，兼顾稀疏性和稳定性，由 Zou & Hastie（2005）提出
Dropout：训练时随机屏蔽神经元（概率 p），等价于对模型集成，2014 年由 Srivastava 等提出
BatchNorm / LayerNorm：通过归一化激活值隐式起到正则化效果，减少对 Dropout 的依赖
数据增强（Data Augmentation）：通过扩充训练分布间接正则化，在 CV/NLP 中广泛应用

应用场景

正则化在各类机器学习任务中不可或缺。

线性/逻辑回归：L2 是默认选择（sklearn LogisticRegression 默认 C=1 即 L2）；特征选择时用 L1
树模型（如 XGBoost）：通过叶子数量惩罚、权重惩罚（γ、λ 参数）实现正则化
深度神经网络：Dropout（fc 层）+ BatchNorm（卷积/Transformer）是标准组合
大语言模型微调：L2 weight decay 和梯度裁剪是 SFT/RLHF 训练的必备正则手段
CV 任务：数据增强（旋转、裁剪、Mixup）是最高效的正则化方式之一

局限与常见误区

正则化并非万能，误用会适得其反。

误区：λ 越大越好：过强正则化导致欠拟合，模型无法学到有效特征
误区：正则化可替代数据：正则化能缓解过拟合，但根本解决方案仍是增加训练数据
Dropout 与 BatchNorm 同用风险：两者组合在某些情况下会相互干扰，需谨慎调整 Dropout 概率
L1 不可导问题：在零点梯度未定义，实际训练中需使用次梯度（subgradient）或软阈值技巧
超参数敏感性：λ 需交叉验证调整，错误的 λ 选择会同时损害训练和测试性能

发展脉络

正则化思想从数学反问题发展到现代深度学习，历经数十年演进。

1963 年：Andrey Tikhonov 提出 Tikhonov 正则化，解决数学中的不适定问题（ill-posed problem）
1970 年：Hoerl & Kennard 提出 Ridge Regression（L2 正则化），引入机器学习领域
1996 年：Robert Tibshirani 提出 Lasso（L1 正则化），实现特征自动选择
2005 年：Zou & Hastie 提出 Elastic Net，融合 L1 与 L2 的优点
2014 年：Srivastava 等提出 Dropout，成为深度学习时代最具影响力的正则化方法
2015 年：Ioffe & Szegedy 提出 Batch Normalization，在归一化的同时带来正则化效果
2020 年代：在大模型训练中，weight decay + gradient clipping 成为标准正则化配置

常见误解

日常交流中容易听到的简化说法，未必准确，但能帮助理解误解从何而来。

「正则化就是给模型加个『紧箍咒』，让它不敢把参数调得太大、太复杂，逼着它学到真正有用的规律而不是死记训练数据。」
「L1 和 L2 傻傻分不清？记住：L1 会把没用的权重直接砍成零（稀疏），L2 只是把权重压小但不会归零。」
「Dropout 其实也是一种正则化——随机关掉一些神经元，逼着网络不能依赖某几个节点，泛化自然变好。」

延伸阅读

从知识库精选 3 篇文章，帮助深入理解该术语。

外部参考

维基百科：查看「Regularization」词条

本页内容为本站原创撰写；维基百科链接仅作延伸参考。

Regularization（正则化）

概述

什么是正则化

工作原理

主要类型与变体

应用场景

局限与常见误区

发展脉络

常见误解

相关术语

延伸阅读

正则化技术：L1, L2, Dropout

正则化：BatchNorm, LayerNorm, Dropout

XGBoost 原理与调参指南

外部参考

概述

什么是正则化

工作原理

主要类型与变体

应用场景

与相邻概念的区别

局限与常见误区

发展脉络

常见误解

相关术语

延伸阅读

正则化技术：L1, L2, Dropout

正则化：BatchNorm, LayerNorm, Dropout

XGBoost 原理与调参指南

外部参考