核心要点

  • 在训练数据中注入恶意样本,污染模型学习过程,分降性能型与植入后门型两类。

  • 标签翻转:篡改样本标签,整体拉低模型准确率或针对特定类别失效。

  • 后门触发器:让模型在带特定触发器的输入上被定向误导,干净输入上则表现正常、难察觉。

  • 防御:数据来源溯源、数据过滤与清洗、异常检测,并审计训练数据全链路。

标准回答

定义

数据投毒是在模型训练阶段污染训练数据,从而操纵学习结果的攻击。与对抗样本攻击发生在推理期不同,投毒发生在训练期,影响被固化进模型权重。

两种典型形态

  • 标签翻转 / 降性能投毒:篡改样本标签或注入噪声样本,整体拉低准确率,或让模型对特定类别系统性失效。
  • 后门(触发器)攻击:训练时把「特定触发器 → 攻击者指定输出」的关联植入模型。模型在正常输入上表现正常,一旦输入带触发器就被定向操控,隐蔽性极强。

威胁面

开源数据集、网络爬取语料、第三方标注、RLHF 反馈与供应链都可能被投毒,规模化预训练尤其难逐条审查。

防御手段

  • 数据溯源:记录数据来源与处理链路(provenance/审计日志),只信可信来源。
  • 数据过滤与清洗:去重、去噪、规则与模型双重筛除可疑样本。
  • 异常检测:在数据分布或训练动态层面识别离群、可疑模式,定位潜在投毒与后门。

需结合多手段并持续监控,单一措施难以覆盖隐蔽后门。

常见误区

⚠️ 常见踩坑

别以为模型在干净测试集上准确率正常就说明数据没被投毒——后门攻击恰恰只在带特定触发器的输入上发作,常规评测看不出来,必须专门做触发器扫描与异常检测。

追问

追问 1数据投毒和对抗样本有何区别?

数据投毒发生在训练阶段,污染训练数据、把恶意行为固化进权重;对抗样本发生在推理阶段,对已训练好的模型构造扰动输入使其误判。前者改模型,后者改输入,威胁面与防御手段都不同。

追问 2后门攻击为什么特别难防?

后门只在带特定触发器的输入上激活,干净数据上模型表现完全正常,常规验证集评测无法暴露;触发器可设计得隐蔽(如特定像素块、罕见词),需专门的触发器逆向、神经元分析或异常检测才能发现。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。