L1 Regularization（L1 正则化）

L1 正则化就是给模型加一把『剃刀』，把没用的特征直接砍掉变成零，让模型更精简。

亦作、亦称：L1 正则化 · Lasso · LASSO · L1 penalty · Lasso Regularization · 稀疏正则化

L1 正则化通过在损失函数中加入系数绝对值惩罚，自动将冗余特征系数归零，是实现特征选择与防止过拟合的经典方法。它是高维机器学习任务中构建可解释稀疏模型的首选工具。

概述

L1 正则化（Lasso）是机器学习中对抗过拟合的核心技术之一，其独特优势在于同时完成正则化与特征选择。

全称：Least Absolute Shrinkage and Selection Operator（最小绝对收缩与选择算子）
核心惩罚项：λ × Σ|wᵢ|，即所有权重绝对值之和乘以正则化系数 λ
稀疏性：能将不重要特征的权重精确归零，实现自动特征选择
应用范围：线性回归、逻辑回归、支持向量机等众多模型均可引入 L1 惩罚
与 L2 区分：L1 产生稀疏解，L2（Ridge）产生小而非零的系数

工作原理

L1 正则化通过修改优化目标函数，在拟合数据与限制模型复杂度之间取得平衡。

目标函数：min { L(w) + λ‖w‖₁ }，其中 L(w) 为原始损失，‖w‖₁ = Σ|wᵢ|
几何直觉：L1 约束区域为菱形（高维超八面体），梯度下降的最优解易落在菱形顶点，对应部分系数恰好为零
软阈值效应：梯度更新时，绝对值小于阈值 λ 的系数直接被截断为零（软阈值算子）
λ 的作用：λ=0 退化为无正则化；λ 越大，归零系数越多，模型越稀疏
求解算法：坐标下降法（Coordinate Descent）、ISTA/FISTA 近端梯度法是常用的 Lasso 求解器

变体与扩展

在标准 L1 正则化基础上，研究者发展出多种针对特定场景的扩展形式。

Elastic Net：L1 + L2 联合惩罚（α‖w‖₁ + (1-α)‖w‖₂²），兼顾稀疏性与多共线特征的稳定处理
Group Lasso：对特征分组施加 L1 惩罚，实现整组特征的选择或丢弃（适合分类变量 one-hot 组）
Sparse Lasso / Adaptive Lasso：对不同系数赋予自适应权重，提升选择一致性
Lasso 路径（LARS 算法）：沿正则化路径高效计算所有 λ 对应的解，便于模型选择
贝叶斯解释：L1 正则化等价于系数先验为拉普拉斯分布（双指数分布）的 MAP 估计

应用场景

L1 正则化在需要稀疏解或高维数据分析的场景中表现突出。

基因组学：特征（基因）数量远超样本量（p >> n）时，Lasso 可自动筛选关键基因
金融风控：从数百个候选变量中选取真正影响信用评分的少数关键特征
自然语言处理：稀疏文本特征（词袋模型）的分类任务，Lasso 可降低词汇维度
图像压缩与重建：压缩感知（Compressive Sensing）中 L1 最小化用于稀疏信号恢复
模型可解释性：稀疏模型系数非零项少，业务人员更容易理解哪些特征真正起作用

与 L2 正则化的区别

L1 与 L2 正则化均用于防止过拟合，但在系数行为、稀疏性和适用场景上有本质差异。

稀疏性：L1 产生精确零系数（特征选择）；L2 系数趋近零但不为零
约束形状：L1 约束为菱形（顶点处导致稀疏）；L2 约束为球形（均匀收缩）
共线特征处理：L1 倾向随机保留共线特征之一；L2 将共线特征系数均匀缩小
计算稳定性：L1 在系数为零处不可微，需用次梯度或近端算法；L2 处处可微更易优化
选型建议：需要特征选择或模型稀疏时用 L1；特征普遍有用且存在共线性时用 L2；兼顾时用 Elastic Net

局限与误区

L1 正则化虽强大，但在使用中有若干重要注意事项和常见误区。

共线特征不稳定：多个高度相关特征中，Lasso 随机选择保留一个，重复实验结果可能不同，需谨慎解读
λ 选择关键：λ 过小欠正则化（过拟合），λ 过大丢失重要特征（欠拟合），必须通过交叉验证调优
特征尺度敏感：L1 惩罚对特征量纲敏感，使用前务必做标准化（均值零、方差一）
误区：认为归零就是无用：Lasso 舍弃的特征并非绝对无意义，可能因共线性被替代特征代表
非凸损失下失效：深度网络参数过多时，标准 Lasso 求解代价极高，通常改用 Dropout 等替代方案

发展脉络

L1 正则化从地球物理学的稀疏信号恢复到成为主流机器学习工具，经历了数十年演进。

1986 年：Santosa 和 Symes 在地球物理学中使用 L1 惩罚进行稀疏系数估计，为 Lasso 的前身
1996 年：Robert Tibshirani（斯坦福大学）在 JRSS-B 发表论文，正式提出并命名 Lasso，系统阐述其变量选择特性
2004 年：Efron 等提出 LARS 算法，使 Lasso 正则化路径的高效计算成为可能
2005 年：Zou 和 Hastie 提出 Elastic Net，解决 Lasso 在共线特征下的不稳定问题
2006 年：Yuan 和 Lin 提出 Group Lasso，将稀疏选择扩展到特征组粒度
2010 年代至今：L1 惩罚思想扩展至深度学习权重剪枝、稀疏注意力等现代大模型压缩领域

常见误解

日常交流中容易听到的简化说法，未必准确，但能帮助理解误解从何而来。

「L1 正则化就是给模型加一把『剃刀』，把没用的特征直接砍掉变成零，让模型更精简。」
「Lasso 和 Ridge 的最大区别在于，Lasso 会让系数变成精确的零，相当于直接删掉特征；Ridge 只是把系数压小，但不会完全删。」
「调 λ 就像调节力度：λ 越大，被砍掉的特征越多，模型越稀疏；λ 太大会把重要特征也砍掉，导致欠拟合。」

相关术语

和本术语关联紧密的其他词条，便于串联理解。

延伸阅读

从知识库精选 3 篇文章，帮助深入理解该术语。

外部参考

维基百科：查看「L1 Regularization」词条

本页内容为本站原创撰写；维基百科链接仅作延伸参考。