Data Poisoning（数据投毒）

训练数据里下毒

亦作、亦称：数据投毒 · Training Data Poisoning

数据投毒（Data Poisoning）是一类针对机器学习训练流程的供应链攻击：攻击者向训练集注入精心构造的恶意样本，使模型在特定触发条件下产生错误输出、植入后门或泄露敏感信息。由于毒化样本通常在干净测试集上表现正常，该攻击极具隐蔽性，是 AI 安全领域的核心威胁之一。

概述

概念定义

数据投毒在攻击目标和危害形式上可细分为两大类型。

可用性攻击（Availability Attack）：大量注入噪声样本，使模型在所有输入上准确率整体下滑，相当于「破坏模型」。
完整性攻击（Integrity Attack）：仅针对特定目标类别进行误导，模型在干净输入上表现正常，只在攻击者指定输入上产生错误输出。
后门攻击（Backdoor/Trojan Attack）：在训练样本中嵌入隐形触发器（trigger），推理阶段只要出现该触发器，模型便输出预设类别；不含触发器时行为完全正常，极难被察觉。
三类攻击的共同点是：攻击发生在训练阶段，破坏已固化进权重，属于供应链威胁，无法通过过滤推理输入来防御。

发展脉络

数据投毒研究从传统机器学习延伸至大型深度模型，威胁面持续扩大。

2006：Barreno 等人首次指出对抗者可通过「误训练」手段欺骗入侵检测系统，初步提出威胁模型。
2012：Biggio、Nelson、Laskov 在 ICML 发表《Poisoning Attacks against Support Vector Machines》，首次给出系统性的梯度投毒方法，正式开创该研究方向。
2017：Gu 等人发表 BadNets，将后门攻击引入深度神经网络，证明供应链（如第三方预训练模型）可被植入触发器，引发学界对深度学习安全的持续讨论。
2021 后：随着大语言模型（LLM）和开源数据集的普及，针对预训练和微调阶段的投毒攻击成为新热点，攻击面从图像分类扩展至文本生成、代码补全等场景。

核心机制

理解投毒攻击的技术原理有助于设计针对性防御。

梯度引导注入：攻击者以模型损失函数的梯度为指导，构造能使目标参数偏移最大的毒化样本，是最高效的白盒攻击方式（Biggio 2012 首次提出）。
干净标签攻击（Clean-label Attack）：毒化样本的标签保持正确，仅对输入做微小的特征扰动，审核者肉眼难以分辨，可规避人工标注校验。
触发器植入：后门攻击在训练样本固定位置添加特殊像素块、水印或文本片段作为触发器，并修改对应标签；推理时触发器激活预设分支，无触发器则行为正常。
低投毒率：研究表明，通常只需污染训练集的 0.1%–5% 即可使攻击生效，极低比例使统计异常检测难以奏效。

常见攻击面

现实场景中数据投毒的攻击入口多样，覆盖整个 AI 开发流程。

开源数据集：Hugging Face、Kaggle 等平台上的公开数据集可能被恶意贡献者污染，下载即引入风险。
众包标注：通过众包平台雇佣恶意标注者，批量混入错误标签或含触发器的样本。
第三方预训练模型：直接分发含后门的权重文件（BadNets 场景），下游用户微调后后门依然保留。
网络爬取语料：LLM 训练依赖网络爬虫，攻击者可在特定网页预先植入毒化文本，等待爬虫抓取纳入预训练集。
RAG 知识库：污染检索增强生成系统的外部文档库，可间接干扰模型的最终输出。

与相邻概念的区别

数据投毒与其他 AI 安全攻击的关键区别在于攻击发生的阶段。

vs 提示注入（Prompt Injection）：提示注入在推理时操控输入文本影响单次对话，不修改权重；数据投毒修改权重本身，影响持久且无法通过过滤输入防御。
vs 对抗样本（Adversarial Examples）：两者都能使模型在特定输入出错，但对抗样本无需干预训练过程，只攻击推理阶段。
vs 训练数据污染（Training Data Contamination）：后者指测试集数据意外泄漏进训练集，属于无意的数据处理失误，并非蓄意攻击，两者成因和危害模式不同。

防御策略

防御数据投毒需要在数据、训练和推理三个层面综合施策，目前尚无完全有效的单一方案。

数据溯源与审计：建立严格的数据来源记录（data provenance），对第三方数据集进行完整性校验和来源认证。
统计异常检测：通过聚类和谱分析（如 Spectral Signatures）识别训练集中分布异常的毒化样本。
后门扫描：使用 Neural Cleanse、STRIP 等工具扫描已训练模型，检测是否存在触发器响应模式；但面对自适应触发器效果有限。
鲁棒训练：采用差分隐私（Differential Privacy）、对抗训练等技术降低毒化样本对权重的影响，但会牺牲一定的模型性能。
联邦学习防护：在分布式训练场景下，采用拜占庭容错聚合算法（如 Krum）过滤恶意客户端梯度。

常见误解

日常交流中容易听到的简化说法，未必准确，但能帮助理解误解从何而来。

「训练数据里下毒」
「后门攻击的一种」
「微调数据要特别审」

延伸阅读

从知识库精选 3 篇文章，帮助深入理解该术语。

外部参考

维基百科：查看「Data Poisoning」词条

本页内容为本站原创撰写；维基百科链接仅作延伸参考。

Data Poisoning（数据投毒）

训练数据里下毒

亦作、亦称：数据投毒 · Training Data Poisoning

概述

概念定义

数据投毒在攻击目标和危害形式上可细分为两大类型。

可用性攻击（Availability Attack）：大量注入噪声样本，使模型在所有输入上准确率整体下滑，相当于「破坏模型」。
完整性攻击（Integrity Attack）：仅针对特定目标类别进行误导，模型在干净输入上表现正常，只在攻击者指定输入上产生错误输出。
后门攻击（Backdoor/Trojan Attack）：在训练样本中嵌入隐形触发器（trigger），推理阶段只要出现该触发器，模型便输出预设类别；不含触发器时行为完全正常，极难被察觉。
三类攻击的共同点是：攻击发生在训练阶段，破坏已固化进权重，属于供应链威胁，无法通过过滤推理输入来防御。

发展脉络

数据投毒研究从传统机器学习延伸至大型深度模型，威胁面持续扩大。

2006：Barreno 等人首次指出对抗者可通过「误训练」手段欺骗入侵检测系统，初步提出威胁模型。
2012：Biggio、Nelson、Laskov 在 ICML 发表《Poisoning Attacks against Support Vector Machines》，首次给出系统性的梯度投毒方法，正式开创该研究方向。
2017：Gu 等人发表 BadNets，将后门攻击引入深度神经网络，证明供应链（如第三方预训练模型）可被植入触发器，引发学界对深度学习安全的持续讨论。
2021 后：随着大语言模型（LLM）和开源数据集的普及，针对预训练和微调阶段的投毒攻击成为新热点，攻击面从图像分类扩展至文本生成、代码补全等场景。

核心机制

理解投毒攻击的技术原理有助于设计针对性防御。

梯度引导注入：攻击者以模型损失函数的梯度为指导，构造能使目标参数偏移最大的毒化样本，是最高效的白盒攻击方式（Biggio 2012 首次提出）。
干净标签攻击（Clean-label Attack）：毒化样本的标签保持正确，仅对输入做微小的特征扰动，审核者肉眼难以分辨，可规避人工标注校验。
触发器植入：后门攻击在训练样本固定位置添加特殊像素块、水印或文本片段作为触发器，并修改对应标签；推理时触发器激活预设分支，无触发器则行为正常。
低投毒率：研究表明，通常只需污染训练集的 0.1%–5% 即可使攻击生效，极低比例使统计异常检测难以奏效。

常见攻击面

现实场景中数据投毒的攻击入口多样，覆盖整个 AI 开发流程。

开源数据集：Hugging Face、Kaggle 等平台上的公开数据集可能被恶意贡献者污染，下载即引入风险。
众包标注：通过众包平台雇佣恶意标注者，批量混入错误标签或含触发器的样本。
第三方预训练模型：直接分发含后门的权重文件（BadNets 场景），下游用户微调后后门依然保留。
网络爬取语料：LLM 训练依赖网络爬虫，攻击者可在特定网页预先植入毒化文本，等待爬虫抓取纳入预训练集。
RAG 知识库：污染检索增强生成系统的外部文档库，可间接干扰模型的最终输出。

与相邻概念的区别

数据投毒与其他 AI 安全攻击的关键区别在于攻击发生的阶段。

vs 提示注入（Prompt Injection）：提示注入在推理时操控输入文本影响单次对话，不修改权重；数据投毒修改权重本身，影响持久且无法通过过滤输入防御。
vs 对抗样本（Adversarial Examples）：两者都能使模型在特定输入出错，但对抗样本无需干预训练过程，只攻击推理阶段。
vs 训练数据污染（Training Data Contamination）：后者指测试集数据意外泄漏进训练集，属于无意的数据处理失误，并非蓄意攻击，两者成因和危害模式不同。

防御策略

防御数据投毒需要在数据、训练和推理三个层面综合施策，目前尚无完全有效的单一方案。

数据溯源与审计：建立严格的数据来源记录（data provenance），对第三方数据集进行完整性校验和来源认证。
统计异常检测：通过聚类和谱分析（如 Spectral Signatures）识别训练集中分布异常的毒化样本。
后门扫描：使用 Neural Cleanse、STRIP 等工具扫描已训练模型，检测是否存在触发器响应模式；但面对自适应触发器效果有限。
鲁棒训练：采用差分隐私（Differential Privacy）、对抗训练等技术降低毒化样本对权重的影响，但会牺牲一定的模型性能。
联邦学习防护：在分布式训练场景下，采用拜占庭容错聚合算法（如 Krum）过滤恶意客户端梯度。

常见误解

日常交流中容易听到的简化说法，未必准确，但能帮助理解误解从何而来。

「训练数据里下毒」
「后门攻击的一种」
「微调数据要特别审」

延伸阅读

从知识库精选 3 篇文章，帮助深入理解该术语。

外部参考

维基百科：查看「Data Poisoning」词条

本页内容为本站原创撰写；维基百科链接仅作延伸参考。

Data Poisoning（数据投毒）

概述

概念定义

发展脉络

核心机制

常见攻击面

与相邻概念的区别

防御策略

常见误解

相关术语

延伸阅读

AI 国防基础设施与治理：从五角大楼 AI 协议到国家级 AI 治理体系

AI 网络安全基础体系：威胁建模、纵深防御与治理框架

AI Agent 金融合规：监管框架、风险管理与行业实践

外部参考

觉得内容有帮助？请站长喝杯咖啡 ☕

Data Poisoning（数据投毒）

概述

概念定义

发展脉络

核心机制

常见攻击面

与相邻概念的区别

防御策略

常见误解

相关术语

延伸阅读

AI 国防基础设施与治理：从五角大楼 AI 协议到国家级 AI 治理体系

AI 网络安全基础体系：威胁建模、纵深防御与治理框架

AI Agent 金融合规：监管框架、风险管理与行业实践

外部参考