标准回答
模型内建重要性
树模型(随机森林、XGBoost)可直接给出特征重要性,依据每个特征带来的 Gini 不纯度下降或分裂增益累加。优点是几乎零额外成本,缺点是对高基数 / 连续特征有系统性偏置,容易高估它们。
置换重要性(Permutation Importance)
在验证集上随机打乱某个特征的取值,观察模型性能掉多少;掉得越多越重要。它与模型无关、更可靠,但每个特征都要重算一遍预测,计算开销大,且在特征强相关时也会失真。
SHAP
基于博弈论的 Shapley 值,把预测公平地分摊到各特征上,满足一致性与可加性,既能做单样本的局部解释,也能聚合成全局重要性,是目前较权威的方法,代价是计算较重。
线性系数与注意事项
线性 / 逻辑回归可看系数大小,但必须先标准化特征才可比。共同的坑:相关特征会互相稀释重要性、重要不等于因果,最终需结合领域知识判断。
常见误区
⚠️ 常见踩坑
直接用树模型内建重要性下结论——它对高基数特征有偏,且相关特征会互相稀释;重要性也不等于因果关系。
追问
追问 1:特征之间高度相关时重要性会怎样?
相关特征会瓜分彼此的重要性:模型可能只挑其中一个去分裂,另一个看起来「不重要」,或两者都被低估。置换单个特征时另一相关特征还能补偿,导致重要性被低估。应先做相关性分析、分组评估或用考虑相关性的方法(如 grouped permutation)。
追问 2:SHAP 和置换重要性该选哪个?
要快速、全局排序且能接受偏置,用置换重要性;要严谨、可加、能解释单条预测(如金融风控对个体给出归因),用 SHAP。两者可交叉验证:结论一致则更可信。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。
📖 术语表
🛠️ AI 工具
- SHAP
基于博弈论的机器学习模型解释工具,使用 Shapley 值为任意模型输出提供一致且可解释的特征重要性归因,适用于各种 ML 框架。