模型后门（Backdoor）攻击如何植入与检测？

Question 1

Accepted Answer

定义

模型后门（Backdoor）是在训练阶段植入的隐藏行为：模型学到「特定触发器 → 攻击者指定输出」的关联。干净输入上模型一切正常，一旦输入带上触发器（如特定像素块、罕见词、特殊水印），就被定向操控输出攻击者想要的结果。

植入方式

为什么难防

后门只在带触发器时激活，干净验证集上准确率完全正常，标准评测无法暴露，必须专门检测。

检测手段

Question 2

Neural Cleanse 的检测思路是什么？

Accepted Answer

对每个输出类别，逆向求解「把任意输入改判为该类所需的最小扰动」。正常类别需要的扰动较大且相近，而被植入后门的目标类只需一个很小的触发器即可改判，于是其逆向扰动会显著偏小。通过对各类扰动大小做离群检测，即可定位后门类并还原近似触发器。

Question 3

后门攻击和数据投毒是什么关系？

Accepted Answer

后门是数据投毒的一种典型目标。数据投毒泛指污染训练数据，既可单纯降低整体性能（如标签翻转），也可定向植入后门触发器。后门强调「干净输入正常、带触发器才发作」的隐蔽定向控制，但其常见实现途径正是投毒训练数据，此外也可通过污染权重或供应链植入。

核心要点