安全今天·Cisco

思科安全研究:所有前沿 AI 模型都无法抵御多轮对抗攻击

思科对 15 款主流 AI 模型的对抗测试发现,单轮攻击成功率不能完全代表模型安全性。多轮攻击下所有模型都存在显著风险,GPT-5.4 多轮攻击成功率从 2.74% 飙升至 24.68%。

思科发布了迄今为止最全面的 AI 模型安全基准研究。

研究规模:

  • 15 款模型:OpenAI (GPT-5.2, GPT-5.4)、Anthropic (Opus 4.5/4.6, Sonnet 4.5/4.6, Haiku 4.5)、Google (Gemini 3 Pro)、Amazon (Nova Lite/Micro/2 Lite)、xAI (Grok 4.1 Fast)
  • 30090 个单轮提示词 + 6986 个多轮攻击

关键发现:

  • 多轮攻击成功率:7.89% - 88.30%,差距一个数量级
  • Claude 系列:单轮 2.19%-3.64% → 多轮 11.16%-16.20%
  • GPT-5.4:单轮 2.74% → 多轮 24.68%(9 倍增长)
  • Gemini 3 Pro:单轮 18.10% → 多轮 73.35%(4 倍增长)
  • 最低风险:Amazon Nova 2 Lite 仍有 7.89% 多轮攻击成功率

核心结论:

  • 单轮攻击成功率不能作为模型安全性的可靠指标
  • 多轮攻击下的模型排序与单轮完全不同
  • 所有测试模型都表现出不可忽视的多轮攻击风险

来源: Cisco AI Blog
链接: https://blogs.cisco.com/ai/proprietary-problems