核心要点
L1 在损失上加 λ·Σ|wᵢ|(权重绝对值之和),倾向把不重要的权重直接压到 0,做特征选择。
L2 加 λ·Σwᵢ²(权重平方和),平滑地收缩所有权重但一般不为 0,缓解共线性与过拟合。
几何解释:L1 约束区是菱形,顶点落在坐标轴上,最优解易命中轴 → 稀疏;L2 是圆,无尖角。
都通过惩罚大权重控制模型复杂度、降方差;可组合为 Elastic Net 兼顾稀疏与稳定。
标准回答
两者区别
L1(Lasso)在损失函数后加 λ·Σ|wᵢ|,L2(Ridge)加 λ·Σwᵢ²。两者都通过惩罚大权重限制模型复杂度、降低方差以防过拟合。差别在于:L1 产生稀疏解(很多权重恰为 0,等于自动特征选择),L2 让权重整体平滑变小但很少恰好为 0,对共线特征更稳健。
L1 为何稀疏
几何视角:优化等价于在「约束区域」内最小化损失。L1 约束 Σ|wᵢ|≤t 的区域是带尖角的菱形,顶点正好落在坐标轴上;损失等高线最先接触约束区的位置往往是这些顶点,对应某些权重为 0,故稀疏。L2 约束区是光滑的圆,没有尖角,接触点一般不在轴上。
梯度视角
L1 的梯度是常数 ±λ,无论权重多小都以恒定力推向 0,能真正归零;L2 梯度 2λw 随权重变小而减弱,只能渐近收缩、不归零。
常见误区
⚠️ 常见踩坑
别说「L2 也能让权重变 0」——L2 只是平滑收缩,一般不产生精确的 0。也别把正则化只当作「让权重变小」,其本质是限制模型容量、用偏差换方差。
追问
追问 1:Elastic Net 是什么,解决了什么问题?
Elastic Net = αL1 + (1-α)L2,同时加两种惩罚。它在保留 L1 稀疏性的同时,借 L2 的平滑缓解 L1 在强相关特征间「随机只选一个」的不稳定,适合高维且特征相关的场景。
追问 2:正则强度 λ 如何选?过大过小各会怎样?
通常用交叉验证在验证集上搜索 λ。λ 过大欠拟合(权重被压得过狠、偏差升高),过小则正则几乎失效、仍会过拟合。画 λ 与验证误差曲线取最优点。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。