核心要点

  • 在输入上叠加人眼几乎不可察觉的微小扰动,即可让模型给出高置信度的错误预测。

  • 扰动通常沿损失对输入的梯度方向构造,利用模型决策边界的脆弱性。

  • 分白盒(已知模型梯度)与黑盒(仅查询)攻击;对抗样本常具跨模型可迁移性。

  • 主流防御:对抗训练、输入预处理/去噪、鲁棒性增强与认证防御,无单一万全方案。

标准回答

定义

对抗样本是经过精心构造、加入人类难以察觉的微小扰动后,仍能让模型以高置信度输出错误结果的输入。它暴露了模型对输入空间的非鲁棒性:决策边界附近存在大量肉眼无差别却被误分类的点。

成因与攻击方式

扰动一般沿损失对输入梯度的方向构造(如 FGSM、PGD 等),把样本推过决策边界。按攻击者掌握的信息分为白盒(可访问梯度)与黑盒(仅能查询输出);许多对抗样本还能在不同模型间迁移,使黑盒攻击更易实施。

防御手段(纵深、无银弹)

  • 对抗训练:训练时把对抗样本一并喂入,让模型学到更鲁棒的边界,是当前最有效的方法之一。
  • 输入预处理:对输入做去噪、压缩、随机化等变换,破坏精心构造的扰动。
  • 鲁棒性增强与认证防御正则化、梯度掩蔽的替代方案、可证明鲁棒半径等,提升或量化抗扰能力。

各防御均有被自适应攻击绕过的风险,需组合使用并持续红队评估。

常见误区

⚠️ 常见踩坑

梯度掩蔽(gradient masking)带来的鲁棒性多是虚假的——它只是让梯度难求,仍可被黑盒或迁移攻击攻破。评估防御要用自适应攻击,而非仅测固定攻击下的准确率

追问

追问 1白盒攻击和黑盒攻击有何区别?

白盒攻击可访问模型结构与梯度,能直接沿梯度高效构造扰动;黑盒只能查询输入输出,靠迁移性或基于查询的估计来攻击。黑盒更贴近真实威胁,但因对抗样本可迁移,黑盒同样有效。

追问 2对抗训练有什么代价?

对抗训练显著增加训练开销,且常以牺牲一部分干净样本准确率(鲁棒性-准确率权衡)为代价;对训练时未覆盖的新型攻击泛化也有限,需配合输入预处理等多层防御。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。