数据投毒攻击如何危害模型？如何防御？

Question 1

数据投毒攻击如何危害模型？如何防御？

Accepted Answer

定义

数据投毒是在模型训练阶段污染训练数据，从而操纵学习结果的攻击。与对抗样本攻击发生在推理期不同，投毒发生在训练期，影响被固化进模型权重。

两种典型形态

威胁面

开源数据集、网络爬取语料、第三方标注、RLHF 反馈与供应链都可能被投毒，规模化预训练尤其难逐条审查。

防御手段

需结合多手段并持续监控，单一措施难以覆盖隐蔽后门。

Question 2

数据投毒和对抗样本有何区别？

Accepted Answer

数据投毒发生在训练阶段，污染训练数据、把恶意行为固化进权重；对抗样本发生在推理阶段，对已训练好的模型构造扰动输入使其误判。前者改模型，后者改输入，威胁面与防御手段都不同。

Question 3

后门攻击为什么特别难防？

Accepted Answer

后门只在带特定触发器的输入上激活，干净数据上模型表现完全正常，常规验证集评测无法暴露；触发器可设计得隐蔽（如特定像素块、罕见词），需专门的触发器逆向、神经元分析或异常检测才能发现。

核心要点