Dimensionality Reduction(降维)

就是把一堆列很多的表格『压扁』成列数少的表格,同时尽量不丢掉重要信息

亦作、亦称:降维 · dimension reduction · 特征降维 · 维度缩减

降维是机器学习中将高维数据映射至低维空间的核心技术,可有效缓解维度诅咒、降低计算成本并揭示数据潜在结构。从 1901 年 Pearson 提出 PCA 到现代深度学习时代的 UMAP,降维方法持续演进,是数据分析与表示学习的基石。

概述

降维是机器学习中将高维数据映射至低维空间的核心技术,可有效缓解维度诅咒、降低计算成本并揭示数据潜在结构。从 1901 年 Pearson 提出 PCA 到现代深度学习时代的 UMAP,降维方法持续演进,是数据分析与表示学习的基石。

概述与核心动机

降维旨在解决高维数据带来的计算与统计挑战。

  • 维度诅咒:维度增加时,样本点之间距离趋于相等,密度下降,模型泛化能力下降
  • 计算效率:低维表示显著减少存储与运算开销
  • 可视化需求:人类只能直观理解 2D/3D 空间,降至二三维才能肉眼观察数据分布
  • 去噪与正则化:去除冗余和噪声特征,有助于提升下游模型泛化能力
  • 两大类别特征选择(保留原始特征子集)与特征提取(构造新低维特征)

工作原理

降维的核心是在低维空间中最大化保留高维空间中的某种结构属性。

  • 线性变换:PCA 通过最大化投影方差找到主成分(正交方向),SVD 提供其数值实现
  • 流形假设:非线性方法假设高维数据实际分布在低维流形上,t-SNE 和 UMAP 通过保持局部邻域关系展开该流形
  • 信息损失度量:PCA 用解释方差比率(Explained Variance Ratio)衡量保留信息量
  • 目标函数:t-SNE 最小化高低维分布的 KL 散度;UMAP 优化交叉熵以同时保留局部与全局结构
  • 自编码器路径:深度神经网络通过编码器-解码器架构学习非线性低维瓶颈表示

主要方法与变体

降维方法按线性/非线性、有监督/无监督可细分为多个流派。

  • PCA(主成分分析):最经典的线性无监督方法,基于特征值分解或 SVD,计算高效且可解释
  • LDA(线性判别分析):有监督线性降维,最大化类间散度与类内散度之比
  • t-SNE:非线性无监督,擅长局部结构可视化,但计算成本高,不适合超大数据集
  • UMAP:相比 t-SNE 更快、更好地保留全局拓扑结构,已成为生物信息学等领域首选
  • 自编码器(Autoencoder):用神经网络学习非线性压缩表示,变分自编码器(VAE) 可同时生成连续隐空间
  • 核 PCA(Kernel PCA):通过核函数将线性 PCA 推广到非线性场景

应用场景

降维在数据科学与 AI 工程的各个环节都有广泛应用。

  • 数据可视化:将高维嵌入(如词向量、图像特征)降至 2D/3D 进行探索性分析
  • 特征工程:在训练机器学习模型前去除冗余特征,提升训练速度与泛化能力
  • 图像压缩:PCA/SVD 用于图像的低秩近似,JPEG 压缩底层即利用 DCT(离散余弦变换)降维思想
  • 生物信息学:单细胞 RNA 测序数据常用 PCA+UMAP 进行细胞类型聚类与可视化
  • 推荐系统:矩阵分解(SVD)将用户-物品交互矩阵降维得到潜在因子表示
  • 异常检测:在低维重建空间中,重建误差大的样本即为异常点

局限与常见误区

理解降维的局限有助于在实践中做出正确选择。

  • t-SNE 轴无意义:t-SNE 坐标轴不对应任何实际特征,点间距离仅反映相对关系,不同 run 结果不可直接比较
  • PCA 不保留非线性结构:若数据分布在弯曲流形上,PCA 线性投影会严重失真
  • 维度选择无固定准则:「保留 95% 方差」只是经验规则,应结合下游任务评估
  • 计算成本陷阱:t-SNE 时间复杂度为 O(n²),百万级数据集需用近似方法(如 FIt-SNE)
  • 信息不可逆丢失:降维后原始维度无法完全重建,训练集和测试集必须使用相同的变换参数

发展脉络

降维方法从统计学起源,随深度学习时代持续演进。

  • 1901 年:Karl Pearson 提出 PCA(主成分分析),奠定线性降维基础
  • 1930 年代:Harold Hotelling 独立发展 PCA 并正式命名;Fisher 提出 LDA
  • 1957 年:Richard Bellman 在《Dynamic Programming》中提出维度诅咒概念
  • 1990 年代IsomapLLE(局部线性嵌入)等流形学习方法兴起
  • 2008 年:van der Maaten & Hinton 发表 t-SNE,成为数据可视化标准工具
  • 2018 年:McInnes 等提出 UMAP,速度更快、全局结构保留更好,迅速在生物信息学领域普及
  • 2020 年代:基于 Transformer 的自监督学习产生高质量低维表示,降维与表示学习深度融合

常见误解

日常交流中容易听到的简化说法,未必准确,但能帮助理解误解从何而来。

  • 「就是把一堆列很多的表格『压扁』成列数少的表格,同时尽量不丢掉重要信息」
  • 「降维不是删列,而是把多个相关列『混合重组』成少数几个新列」
  • 「可以理解为给数据照一张照片——把三维物体投影到二维平面,角度选得好就能保留最多细节」

相关术语

和本术语关联紧密的其他词条,便于串联理解。

延伸阅读

从知识库精选 3 篇文章,帮助深入理解该术语。

  1. 1

    PCA:主成分分析降维

    从协方差矩阵到奇异值分解,理解最常用的降维算法

  2. 2

    t-SNE 与 UMAP:非线性降维可视化

    从高维到二维,掌握非线性降维的原理与实战

  3. 3

    SVD奇异值分解:矩阵分解的核心算法

    深入理解奇异值分解(SVD)的数学原理、几何直觉、以及在机器学习中的核心应用(PCA降维、推荐系统、图像处理)

外部参考

维基百科:查看「Dimensionality Reduction」词条

本页内容为本站原创撰写;维基百科链接仅作延伸参考。