Dimensionality Reduction（降维）

就是把一堆列很多的表格『压扁』成列数少的表格，同时尽量不丢掉重要信息

亦作、亦称：降维 · dimension reduction · 特征降维 · 维度缩减

降维是机器学习中将高维数据映射至低维空间的核心技术，可有效缓解维度诅咒、降低计算成本并揭示数据潜在结构。从 1901 年 Pearson 提出 PCA 到现代深度学习时代的 UMAP，降维方法持续演进，是数据分析与表示学习的基石。

概述

概述与核心动机

降维旨在解决高维数据带来的计算与统计挑战。

维度诅咒：维度增加时，样本点之间距离趋于相等，密度下降，模型泛化能力下降
计算效率：低维表示显著减少存储与运算开销
可视化需求：人类只能直观理解 2D/3D 空间，降至二三维才能肉眼观察数据分布
去噪与正则化：去除冗余和噪声特征，有助于提升下游模型泛化能力
两大类别：特征选择（保留原始特征子集）与特征提取（构造新低维特征）

工作原理

降维的核心是在低维空间中最大化保留高维空间中的某种结构属性。

线性变换：PCA 通过最大化投影方差找到主成分（正交方向），SVD 提供其数值实现
流形假设：非线性方法假设高维数据实际分布在低维流形上，t-SNE 和 UMAP 通过保持局部邻域关系展开该流形
信息损失度量：PCA 用解释方差比率（Explained Variance Ratio）衡量保留信息量
目标函数：t-SNE 最小化高低维分布的 KL 散度；UMAP 优化交叉熵以同时保留局部与全局结构
自编码器路径：深度神经网络通过编码器-解码器架构学习非线性低维瓶颈表示

主要方法与变体

降维方法按线性/非线性、有监督/无监督可细分为多个流派。

PCA（主成分分析）：最经典的线性无监督方法，基于特征值分解或 SVD，计算高效且可解释
LDA（线性判别分析）：有监督线性降维，最大化类间散度与类内散度之比
t-SNE：非线性无监督，擅长局部结构可视化，但计算成本高，不适合超大数据集
UMAP：相比 t-SNE 更快、更好地保留全局拓扑结构，已成为生物信息学等领域首选
自编码器（Autoencoder）：用神经网络学习非线性压缩表示，变分自编码器（VAE） 可同时生成连续隐空间
核 PCA（Kernel PCA）：通过核函数将线性 PCA 推广到非线性场景

应用场景

降维在数据科学与 AI 工程的各个环节都有广泛应用。

数据可视化：将高维嵌入（如词向量、图像特征）降至 2D/3D 进行探索性分析
特征工程：在训练机器学习模型前去除冗余特征，提升训练速度与泛化能力
图像压缩：PCA/SVD 用于图像的低秩近似，JPEG 压缩底层即利用 DCT（离散余弦变换）降维思想
生物信息学：单细胞 RNA 测序数据常用 PCA+UMAP 进行细胞类型聚类与可视化
推荐系统：矩阵分解（SVD）将用户-物品交互矩阵降维得到潜在因子表示
异常检测：在低维重建空间中，重建误差大的样本即为异常点

局限与常见误区

理解降维的局限有助于在实践中做出正确选择。

t-SNE 轴无意义：t-SNE 坐标轴不对应任何实际特征，点间距离仅反映相对关系，不同 run 结果不可直接比较
PCA 不保留非线性结构：若数据分布在弯曲流形上，PCA 线性投影会严重失真
维度选择无固定准则：「保留 95% 方差」只是经验规则，应结合下游任务评估
计算成本陷阱：t-SNE 时间复杂度为 O(n²)，百万级数据集需用近似方法（如 FIt-SNE）
信息不可逆丢失：降维后原始维度无法完全重建，训练集和测试集必须使用相同的变换参数

发展脉络

降维方法从统计学起源，随深度学习时代持续演进。

1901 年：Karl Pearson 提出 PCA（主成分分析），奠定线性降维基础
1930 年代：Harold Hotelling 独立发展 PCA 并正式命名；Fisher 提出 LDA
1957 年：Richard Bellman 在《Dynamic Programming》中提出维度诅咒概念
1990 年代：Isomap、LLE（局部线性嵌入）等流形学习方法兴起
2008 年：van der Maaten & Hinton 发表 t-SNE，成为数据可视化标准工具
2018 年：McInnes 等提出 UMAP，速度更快、全局结构保留更好，迅速在生物信息学领域普及
2020 年代：基于 Transformer 的自监督学习产生高质量低维表示，降维与表示学习深度融合

常见误解

日常交流中容易听到的简化说法，未必准确，但能帮助理解误解从何而来。

「就是把一堆列很多的表格『压扁』成列数少的表格，同时尽量不丢掉重要信息」
「降维不是删列，而是把多个相关列『混合重组』成少数几个新列」
「可以理解为给数据照一张照片——把三维物体投影到二维平面，角度选得好就能保留最多细节」

延伸阅读

从知识库精选 3 篇文章，帮助深入理解该术语。

外部参考

维基百科：查看「Dimensionality Reduction」词条

本页内容为本站原创撰写；维基百科链接仅作延伸参考。

速览

一句话定义: 降维是在保留数据核心结构与信息的前提下，将高维特征空间映射到低维空间的技术总称。
提出: 最早的线性降维方法 PCA 由 Karl Pearson 于 1901 年提出，Harold Hotelling 于 1930 年代独立发展并命名；「维度诅咒」概念由 Richard Bellman 于 1957 年在《Dynamic Programming》中正式提出。
关键论文 / 来源: Pearson, K. (1901). On lines and planes of closest fit to systems of points in space. Philosophical Magazine. / van der Maaten & Hinton (2008). Visualizing Data using t-SNE. JMLR. / McInnes et al. (2018). UMAP: Uniform Manifold Approximation and Projection. arXiv:1802.03426.

分类

机器学习数学基础

Dimensionality Reduction（降维）

概述

概述与核心动机

工作原理

主要方法与变体

应用场景

局限与常见误区

发展脉络

常见误解

相关术语

延伸阅读

PCA：主成分分析降维

t-SNE 与 UMAP：非线性降维可视化

SVD奇异值分解：矩阵分解的核心算法

外部参考

概述

概述与核心动机

工作原理

主要方法与变体

应用场景

与相邻概念的区别

局限与常见误区

发展脉络

常见误解

相关术语

延伸阅读

PCA：主成分分析降维

t-SNE 与 UMAP：非线性降维可视化

SVD奇异值分解：矩阵分解的核心算法

外部参考