L1 与 L2 正则化有什么区别？为什么 L1 能产生稀疏？

Question 1

Accepted Answer

两者区别 L1（Lasso）在损失函数后加 λ·Σ wᵢ ，L2（Ridge）加 λ·Σwᵢ²。两者都通过惩罚大权重限制模型复杂度、降低方差以防过拟合。差别在于：L1 产生稀疏解（很多权重恰为 0，等于自动特征选择），L2 让权重整体平滑变小但很少恰好为 0，对共线特征更稳健。 L1 为何稀疏 几何视角：优化等价于在「约束区域」内最小化损失。L1 约束 Σ wᵢ ≤t 的区域是带尖角的菱形，顶点正好落在坐标轴上；损失等高线最先接触约束区的位置往往是这些顶点，对应某些权重为 0，故稀疏。L2 约束区是光滑的圆，没有尖角，接触点一般不在轴上。 梯度视角 L1 的梯度是常数 ±λ，无论权重多小都以恒定力推向 0，能真正归零；L2 梯度 2λw 随权重变小而减弱，只能渐近收缩、不归零。

Question 2

Elastic Net 是什么，解决了什么问题？

Accepted Answer

Elastic Net = αL1 + (1-α)L2，同时加两种惩罚。它在保留 L1 稀疏性的同时，借 L2 的平滑缓解 L1 在强相关特征间「随机只选一个」的不稳定，适合高维且特征相关的场景。

Question 3

正则强度 λ 如何选？过大过小各会怎样？

Accepted Answer

通常用交叉验证在验证集上搜索 λ。λ 过大欠拟合（权重被压得过狠、偏差升高），过小则正则几乎失效、仍会过拟合。画 λ 与验证误差曲线取最优点。

L1 与 L2 正则化有什么区别？为什么 L1 能产生稀疏？

核心要点

标准回答

常见误区

追问

延伸学习