L1 Regularization(L1 正则化)

L1 正则化就是给模型加一把『剃刀』,把没用的特征直接砍掉变成零,让模型更精简。

亦作、亦称:L1 正则化 · Lasso · LASSO · L1 penalty · Lasso Regularization · 稀疏正则化

L1 正则化通过在损失函数中加入系数绝对值惩罚,自动将冗余特征系数归零,是实现特征选择与防止过拟合的经典方法。它是高维机器学习任务中构建可解释稀疏模型的首选工具。

概述

L1 正则化(Lasso)是机器学习中对抗过拟合的核心技术之一,其独特优势在于同时完成正则化与特征选择。

  • 全称:Least Absolute Shrinkage and Selection Operator(最小绝对收缩与选择算子)
  • 核心惩罚项:λ × Σ|wᵢ|,即所有权重绝对值之和乘以正则化系数 λ
  • 稀疏性:能将不重要特征的权重精确归零,实现自动特征选择
  • 应用范围:线性回归、逻辑回归、支持向量机等众多模型均可引入 L1 惩罚
  • 与 L2 区分:L1 产生稀疏解,L2(Ridge)产生小而非零的系数

工作原理

L1 正则化通过修改优化目标函数,在拟合数据与限制模型复杂度之间取得平衡。

  • 目标函数:min { L(w) + λ‖w‖₁ },其中 L(w) 为原始损失,‖w‖₁ = Σ|wᵢ|
  • 几何直觉:L1 约束区域为菱形(高维超八面体),梯度下降的最优解易落在菱形顶点,对应部分系数恰好为零
  • 软阈值效应:梯度更新时,绝对值小于阈值 λ 的系数直接被截断为零(软阈值算子
  • λ 的作用:λ=0 退化为无正则化;λ 越大,归零系数越多,模型越稀疏
  • 求解算法:坐标下降法(Coordinate Descent)、ISTA/FISTA 近端梯度法是常用的 Lasso 求解器

变体与扩展

在标准 L1 正则化基础上,研究者发展出多种针对特定场景的扩展形式。

  • Elastic Net:L1 + L2 联合惩罚(α‖w‖₁ + (1-α)‖w‖₂²),兼顾稀疏性与多共线特征的稳定处理
  • Group Lasso:对特征分组施加 L1 惩罚,实现整组特征的选择或丢弃(适合分类变量 one-hot 组)
  • Sparse Lasso / Adaptive Lasso:对不同系数赋予自适应权重,提升选择一致性
  • Lasso 路径(LARS 算法):沿正则化路径高效计算所有 λ 对应的解,便于模型选择
  • 贝叶斯解释:L1 正则化等价于系数先验为拉普拉斯分布(双指数分布)的 MAP 估计

应用场景

L1 正则化在需要稀疏解或高维数据分析的场景中表现突出。

  • 基因组学:特征(基因)数量远超样本量(p >> n)时,Lasso 可自动筛选关键基因
  • 金融风控:从数百个候选变量中选取真正影响信用评分的少数关键特征
  • 自然语言处理:稀疏文本特征(词袋模型)的分类任务,Lasso 可降低词汇维度
  • 图像压缩与重建:压缩感知(Compressive Sensing)中 L1 最小化用于稀疏信号恢复
  • 模型可解释性:稀疏模型系数非零项少,业务人员更容易理解哪些特征真正起作用

与 L2 正则化的区别

L1 与 L2 正则化均用于防止过拟合,但在系数行为、稀疏性和适用场景上有本质差异。

  • 稀疏性:L1 产生精确零系数(特征选择);L2 系数趋近零但不为零
  • 约束形状:L1 约束为菱形(顶点处导致稀疏);L2 约束为球形(均匀收缩)
  • 共线特征处理:L1 倾向随机保留共线特征之一;L2 将共线特征系数均匀缩小
  • 计算稳定性:L1 在系数为零处不可微,需用次梯度或近端算法;L2 处处可微更易优化
  • 选型建议:需要特征选择或模型稀疏时用 L1;特征普遍有用且存在共线性时用 L2;兼顾时用 Elastic Net

局限与误区

L1 正则化虽强大,但在使用中有若干重要注意事项和常见误区。

  • 共线特征不稳定:多个高度相关特征中,Lasso 随机选择保留一个,重复实验结果可能不同,需谨慎解读
  • λ 选择关键:λ 过小欠正则化(过拟合),λ 过大丢失重要特征(欠拟合),必须通过交叉验证调优
  • 特征尺度敏感:L1 惩罚对特征量纲敏感,使用前务必做标准化(均值零、方差一)
  • 误区:认为归零就是无用:Lasso 舍弃的特征并非绝对无意义,可能因共线性被替代特征代表
  • 非凸损失下失效:深度网络参数过多时,标准 Lasso 求解代价极高,通常改用 Dropout 等替代方案

发展脉络

L1 正则化从地球物理学的稀疏信号恢复到成为主流机器学习工具,经历了数十年演进。

  • 1986 年:Santosa 和 Symes 在地球物理学中使用 L1 惩罚进行稀疏系数估计,为 Lasso 的前身
  • 1996 年:Robert Tibshirani(斯坦福大学)在 JRSS-B 发表论文,正式提出并命名 Lasso,系统阐述其变量选择特性
  • 2004 年:Efron 等提出 LARS 算法,使 Lasso 正则化路径的高效计算成为可能
  • 2005 年:Zou 和 Hastie 提出 Elastic Net,解决 Lasso 在共线特征下的不稳定问题
  • 2006 年:Yuan 和 Lin 提出 Group Lasso,将稀疏选择扩展到特征组粒度
  • 2010 年代至今:L1 惩罚思想扩展至深度学习权重剪枝稀疏注意力等现代大模型压缩领域

常见误解

日常交流中容易听到的简化说法,未必准确,但能帮助理解误解从何而来。

  • 「L1 正则化就是给模型加一把『剃刀』,把没用的特征直接砍掉变成零,让模型更精简。」
  • 「Lasso 和 Ridge 的最大区别在于,Lasso 会让系数变成精确的零,相当于直接删掉特征;Ridge 只是把系数压小,但不会完全删。」
  • 「调 λ 就像调节力度:λ 越大,被砍掉的特征越多,模型越稀疏;λ 太大会把重要特征也砍掉,导致欠拟合。」

相关术语

和本术语关联紧密的其他词条,便于串联理解。

延伸阅读

从知识库精选 3 篇文章,帮助深入理解该术语。

  1. 1

    正则化技术:L1, L2, Dropout

    从岭回归到弹性网,掌握防止过拟合的正则化技术(更新于 2026-06-09:新增现代正则化技术章节)

  2. 2

    偏差-方差权衡:过拟合与欠拟合

    理解机器学习最核心的概念——偏差与方差的平衡之道

  3. 3

    模型评估与选择:交叉验证、AUC-ROC

    从准确率到 AUC-ROC,掌握模型评估的完整体系

外部参考

维基百科:查看「L1 Regularization」词条

本页内容为本站原创撰写;维基百科链接仅作延伸参考。