核心要点

  • 按范围分:全局解释(模型整体行为/特征重要性)与局部解释(单条预测为何如此)。

  • SHAP:基于博弈论 Shapley 值给每个特征公平的加性贡献,满足一致性、可全局可局部。

  • LIME:在待解释样本邻域采样,用可解释的线性代理模型局部拟合,给出局部归因。

  • 另有特征重要性、注意力可视化、显著图等;解释是近似,需警惕误导与不稳定。

标准回答

为什么需要 XAI

复杂模型多是黑盒,难以直接理解其决策。可解释 AI 旨在让决策对人可理解,服务于调试、合规、问责、公平性审查与建立信任。

两个维度

  • 全局解释:刻画模型整体如何工作,如全局特征重要性、部分依赖图。
  • 局部解释:解释单条预测为什么得到该结果。

两种代表方法

  • SHAP(Shapley Additive Explanations):源自合作博弈论的 Shapley 值,把预测公平地分摊到各特征上,给出加性的贡献值。理论性质好(一致性、局部精确),既能局部解释也能聚合成全局视图,但计算成本较高。
  • LIME(Local Interpretable Model-agnostic Explanations):在待解释样本附近扰动采样,用一个简单的可解释模型(如线性回归)局部拟合黑盒,得到该点的特征归因。模型无关、直观,但解释仅在局部有效、对采样和邻域选择较敏感、可能不稳定。

局限

解释本身是对模型的近似,可能不忠实于真实机制;不同方法结论可能不一致,需谨慎使用并交叉验证

常见误区

⚠️ 常见踩坑

别把特征「重要性/归因」当成因果关系——SHAP、LIME 给的是模型对该特征的依赖,不代表现实世界的因果。LIME 解释还只在局部成立且对扰动敏感,换个邻域可能给出不同结论。

追问

追问 1SHAP 和 LIME 的核心区别?

SHAP 基于 Shapley 值,有坚实博弈论基础、满足加性与一致性,能保证归因公平且可聚合为全局解释,但计算开销大。LIME 用局部线性代理拟合,模型无关、计算轻、直观,但只在样本邻域近似有效,且对采样和邻域选择较敏感、稳定性较弱。

追问 2可解释性和机制可解释性有何不同?

传统 XAI(SHAP/LIME)做事后、输入-输出层面的归因,不打开模型内部。机制可解释性(mechanistic interpretability)试图逆向工程网络内部的神经元、电路与表示,理解模型“如何”计算,颗粒度更深、更接近因果机制。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。