如何衡量特征重要性？有哪些方法？

Question 1

如何衡量特征重要性？有哪些方法？

Accepted Answer

模型内建重要性 树模型（随机森林、XGBoost）可直接给出特征重要性，依据每个特征带来的 Gini 不纯度下降或分裂增益累加。优点是几乎零额外成本，缺点是对高基数 / 连续特征有系统性偏置，容易高估它们。 置换重要性（Permutation Importance） 在验证集上随机打乱某个特征的取值，观察模型性能掉多少；掉得越多越重要。它与模型无关、更可靠，但每个特征都要重算一遍预测，计算开销大，且在特征强相关时也会失真。 SHAP 基于博弈论的 Shapley 值，把预测公平地分摊到各特征上，满足一致性与可加性，既能做单样本的局部解释，也能聚合成全局重要性，是目前较权威的方法，代价是计算较重。 线性系数与注意事项 线性 / 逻辑回归可看系数大小，但必须先标准化特征才可比。共同的坑：相关特征会互相稀释重要性、重要不等于因果，最终需结合领域知识判断。

Question 2

特征之间高度相关时重要性会怎样？

Accepted Answer

相关特征会瓜分彼此的重要性：模型可能只挑其中一个去分裂，另一个看起来「不重要」，或两者都被低估。置换单个特征时另一相关特征还能补偿，导致重要性被低估。应先做相关性分析、分组评估或用考虑相关性的方法（如 grouped permutation）。

Question 3

SHAP 和置换重要性该选哪个？

Accepted Answer

要快速、全局排序且能接受偏置，用置换重要性；要严谨、可加、能解释单条预测（如金融风控对个体给出归因），用 SHAP。两者可交叉验证：结论一致则更可信。

如何衡量特征重要性？有哪些方法？

核心要点

标准回答

常见误区

追问

延伸学习