标准回答
定义
模型后门(Backdoor)是在训练阶段植入的隐藏行为:模型学到「特定触发器 → 攻击者指定输出」的关联。干净输入上模型一切正常,一旦输入带上触发器(如特定像素块、罕见词、特殊水印),就被定向操控输出攻击者想要的结果。
植入方式
- 数据投毒:在训练集中注入带触发器且标到目标类的样本;
- 权重/供应链污染:分发被改过的预训练权重或在第三方微调中植入;
- 触发器可设计得极隐蔽,肉眼或常规审查难以察觉。
为什么难防
后门只在带触发器时激活,干净验证集上准确率完全正常,标准评测无法暴露,必须专门检测。
检测手段
- Neural Cleanse:为每个类逆向求解能使模型误判的最小扰动,触发器对应的扰动会异常小,从而暴露后门类。
- 激活聚类:对某类样本的隐层激活做聚类,后门样本会聚成与干净样本分离的异常簇。
- 数据溯源与签名校验:审计训练数据来源、对模型/数据做签名与 SBOM 校验,从供应链侧拦截。
常见误区
⚠️ 常见踩坑
别用「干净测试集准确率正常」来证明模型没有后门——后门恰恰只在带触发器的输入上发作,常规评测无法触发,必须做触发器逆向(如 Neural Cleanse)与激活分析才能发现。
追问
追问 1:Neural Cleanse 的检测思路是什么?
对每个输出类别,逆向求解「把任意输入改判为该类所需的最小扰动」。正常类别需要的扰动较大且相近,而被植入后门的目标类只需一个很小的触发器即可改判,于是其逆向扰动会显著偏小。通过对各类扰动大小做离群检测,即可定位后门类并还原近似触发器。
追问 2:后门攻击和数据投毒是什么关系?
后门是数据投毒的一种典型目标。数据投毒泛指污染训练数据,既可单纯降低整体性能(如标签翻转),也可定向植入后门触发器。后门强调「干净输入正常、带触发器才发作」的隐蔽定向控制,但其常见实现途径正是投毒训练数据,此外也可通过污染权重或供应链植入。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。