标准回答
定义与后果
多重共线性指回归模型中若干自变量之间存在高度线性相关。此时设计矩阵 X 的列近似线性相关,X^T X 接近奇异,求逆时数值不稳定。
后果是系数估计的方差急剧变大:模型整体预测能力(R²)可能仍然不错,但单个系数的估计极不稳定,对数据的微小扰动很敏感,符号甚至可能与常识相反,导致无法解释每个特征的真实贡献。
检测
最常用方差膨胀因子(VIF):对第 i 个特征用其余特征回归得到 R_i²,VIF_i = 1/(1 - R_i²),经验上 VIF>10(严格时 >5)即存在严重共线性。也可看相关系数矩阵中的高相关对,或矩阵的条件数。
处理
删除冗余特征只保留代表性变量;用 PCA 等降维得到正交主成分;引入 L2 正则(岭回归)通过惩罚项稳定系数;或将业务上同质的变量合并。
常见误区
⚠️ 常见踩坑
共线性主要损害系数的可解释性与稳定性,对纯预测精度影响有限;若只关心预测而非解释,不一定必须处理。两两相关低也可能存在多变量共线性,需用 VIF 而非只看相关矩阵。
追问
追问 1:为什么 L2 正则能缓解多重共线性?
岭回归在损失中加入 λ‖w‖²,等价于求解 (X^TX + λI)^{-1}X^Ty。λI 使矩阵远离奇异、条件数下降,从而稳定求逆并收缩系数,降低估计方差,以少量偏差换取大幅方差下降。
追问 2:决策树或随机森林需要担心多重共线性吗?
树模型对共线性不敏感,不影响预测,因为每次分裂只选一个特征。但相关特征会分摊特征重要性,使重要性排序被稀释、产生误导,做特征解释时仍需注意。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。