主成分分析（PCA）是如何降维的？

Question 1

主成分分析（PCA）是如何降维的？

Accepted Answer

目标

PCA 寻找一组互相正交的新坐标轴（主成分），使数据投影后方差最大（信息保留最多），用前几个主成分替代原始高维特征，达到降维去冗余。

步骤

与 SVD 的关系

对中心化矩阵 X 做 SVD：X = UΣVᵀ，则 V 的列即主成分，奇异值平方与特征值成正比。实践中直接用 SVD 更稳定，避免显式构造可能病态的协方差矩阵。

Question 2

怎么决定保留多少个主成分？

Accepted Answer

常用累计解释方差比，取达到阈值（如 90%~95%）所需的最小 k；或看碎石图（scree plot）的「拐点」；若用于下游模型，也可把 k 作为超参用交叉验证选。

Question 3

PCA 和 t-SNE/UMAP 有什么不同？

Accepted Answer

PCA 是线性、可解释、保全局方差结构、可对新数据做投影，主要用于降维与去相关；t-SNE/UMAP 是非线性、侧重保留局部邻域结构、主要用于可视化，计算更贵且一般不便直接外推到新样本。

核心要点