核心要点

  • 在训练阶段植入「特定触发器 → 攻击者指定输出」的隐藏关联,把恶意行为固化进权重。

  • 隐蔽性强:干净输入上模型表现完全正常,只有输入带触发器时才被定向误判,常规评测看不出。

  • 植入途径:投毒训练数据、污染预训练权重、篡改微调过程或供应链中的模型仓库。

  • 检测:Neural Cleanse 逆向触发器、激活聚类分离异常样本、数据溯源/签名校验追查来源。

标准回答

定义

模型后门(Backdoor)是在训练阶段植入的隐藏行为:模型学到「特定触发器 → 攻击者指定输出」的关联。干净输入上模型一切正常,一旦输入带上触发器(如特定像素块、罕见词、特殊水印),就被定向操控输出攻击者想要的结果。

植入方式

  • 数据投毒:在训练集中注入带触发器且标到目标类的样本;
  • 权重/供应链污染:分发被改过的预训练权重或在第三方微调中植入;
  • 触发器可设计得极隐蔽,肉眼或常规审查难以察觉。

为什么难防

后门只在带触发器时激活,干净验证集上准确率完全正常,标准评测无法暴露,必须专门检测。

检测手段

  • Neural Cleanse:为每个类逆向求解能使模型误判的最小扰动,触发器对应的扰动会异常小,从而暴露后门类。
  • 激活聚类:对某类样本的隐层激活做聚类,后门样本会聚成与干净样本分离的异常簇。
  • 数据溯源与签名校验:审计训练数据来源、对模型/数据做签名与 SBOM 校验,从供应链侧拦截。

常见误区

⚠️ 常见踩坑

别用「干净测试集准确率正常」来证明模型没有后门——后门恰恰只在带触发器的输入上发作,常规评测无法触发,必须做触发器逆向(如 Neural Cleanse)与激活分析才能发现。

追问

追问 1Neural Cleanse 的检测思路是什么?

对每个输出类别,逆向求解「把任意输入改判为该类所需的最小扰动」。正常类别需要的扰动较大且相近,而被植入后门的目标类只需一个很小的触发器即可改判,于是其逆向扰动会显著偏小。通过对各类扰动大小做离群检测,即可定位后门类并还原近似触发器。

追问 2后门攻击和数据投毒是什么关系?

后门是数据投毒的一种典型目标。数据投毒泛指污染训练数据,既可单纯降低整体性能(如标签翻转),也可定向植入后门触发器。后门强调「干净输入正常、带触发器才发作」的隐蔽定向控制,但其常见实现途径正是投毒训练数据,此外也可通过污染权重或供应链植入。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。