对抗性机器学习(Adversarial Machine Learning)

研究怎么攻击和防御 AI 模型

亦作、亦称:Adversarial Machine Learning · Adversarial ML · 对抗式机器学习

概述

研究对机器学习算法的攻击与防御的交叉领域,主要攻击类型包括逃逸攻击、数据投毒、拜占庭攻击和模型提取。2026 年因 AI 模型蒸馏防护(反蒸馏)和提示注入攻击的产业化而成为 AI 安全的核心学科基础。

工作原理

研究对机器学习算法的攻击与防御的交叉领域,主要攻击类型包括逃逸攻击、数据投毒、拜占庭攻击和模型提取。2026 年因 AI 模型蒸馏防护(反蒸馏)和提示注入攻击的产业化而成为 AI 安全的核心学科基础。

应用场景

对抗性机器学习常见于:AI 研究与产业落地。实际选型需结合业务指标、数据规模与部署约束评估适用性。

局限与误区

围绕 对抗性机器学习 的口语化说法(见「常见误解」)常过度简化。效果依赖数据质量、任务匹配与系统整体设计;生产环境应配合评测、监控与人工复核。

背景与发展

对抗性机器学习随 AI 研究与工程实践持续演进,定义边界与最佳实践仍在更新。建议结合原始论文、官方文档与本站延伸阅读建立准确认知。

常见误解

日常交流中容易听到的简化说法,未必准确,但能帮助理解误解从何而来。

  • 「研究怎么攻击和防御 AI 模型」
  • 「给 AI 找漏洞」

相关术语

和本术语关联紧密的其他词条,便于串联理解。

延伸阅读

从知识库精选 1 篇文章,帮助深入理解该术语。

  1. 1

    AI 模型反蒸馏防护与知识产权保护:从 Anthropic 指控阿里巴巴到技术-法律纵深防御体系

    2026 年 6 月 Anthropic 指控阿里巴巴蒸馏 Claude 模型事件标志着 AI 模型知识产权保护从学术议题升级为商业战争。本文系统梳理反蒸馏技术全景:从 Tree of Attacks (TATA) 对抗性攻击、对抗性微调 (AMFS)、输出扰动、模型水印,到法律合规框架(美国 AI 法案、EU AI Act),构建可落地的纵深防御体系。