什么是对抗样本（Adversarial Examples）？如何防御？

Question 1

Accepted Answer

定义

对抗样本是经过精心构造、加入人类难以察觉的微小扰动后，仍能让模型以高置信度输出错误结果的输入。它暴露了模型对输入空间的非鲁棒性：决策边界附近存在大量肉眼无差别却被误分类的点。

成因与攻击方式

扰动一般沿损失对输入梯度的方向构造（如 FGSM、PGD 等），把样本推过决策边界。按攻击者掌握的信息分为白盒（可访问梯度）与黑盒（仅能查询输出）；许多对抗样本还能在不同模型间迁移，使黑盒攻击更易实施。

防御手段（纵深、无银弹）

各防御均有被自适应攻击绕过的风险，需组合使用并持续红队评估。

Question 2

白盒攻击和黑盒攻击有何区别？

Accepted Answer

白盒攻击可访问模型结构与梯度，能直接沿梯度高效构造扰动；黑盒只能查询输入输出，靠迁移性或基于查询的估计来攻击。黑盒更贴近真实威胁，但因对抗样本可迁移，黑盒同样有效。

Question 3

对抗训练有什么代价？

Accepted Answer

对抗训练显著增加训练开销，且常以牺牲一部分干净样本准确率（鲁棒性-准确率权衡）为代价；对训练时未覆盖的新型攻击泛化也有限，需配合输入预处理等多层防御。

核心要点