← 首页/AI 资讯

安全今天·Cisco

思科安全研究：所有前沿 AI 模型都无法抵御多轮对抗攻击

思科对 15 款主流 AI 模型的对抗测试发现，单轮攻击成功率不能完全代表模型安全性。多轮攻击下所有模型都存在显著风险，GPT-5.4 多轮攻击成功率从 2.74% 飙升至 24.68%。

思科发布了迄今为止最全面的 AI 模型安全基准研究。

研究规模：

15 款模型：OpenAI (GPT-5.2, GPT-5.4)、Anthropic (Opus 4.5/4.6, Sonnet 4.5/4.6, Haiku 4.5)、Google (Gemini 3 Pro)、Amazon (Nova Lite/Micro/2 Lite)、xAI (Grok 4.1 Fast)
30090 个单轮提示词 + 6986 个多轮攻击

关键发现：

多轮攻击成功率：7.89% - 88.30%，差距一个数量级
Claude 系列：单轮 2.19%-3.64% → 多轮 11.16%-16.20%
GPT-5.4：单轮 2.74% → 多轮 24.68%（9 倍增长）
Gemini 3 Pro：单轮 18.10% → 多轮 73.35%（4 倍增长）
最低风险：Amazon Nova 2 Lite 仍有 7.89% 多轮攻击成功率

核心结论：

单轮攻击成功率不能作为模型安全性的可靠指标
多轮攻击下的模型排序与单轮完全不同
所有测试模型都表现出不可忽视的多轮攻击风险

来源: Cisco AI Blog
链接: https://blogs.cisco.com/ai/proprietary-problems

📰 原始来源

https://blogs.cisco.com/ai/proprietary-problems

← 上一篇

2026 年高考期间六大 AI 平台将限制答题功能，豆包、通义、元宝等集体响应

下一篇 →

Anthropic 计划公开 Claude Mythos 模型，安全护栏开发成关键门槛

📰 更多动态

行业2026-05-28

豆包付费引发大模型商业化拐点讨论，中国 AI 用户付费率仅 9.8%

行业2026-05-28

2026 年高考期间六大 AI 平台将限制答题功能，豆包、通义、元宝等集体响应

安全2026-05-28

Anthropic 计划公开 Claude Mythos 模型，安全护栏开发成关键门槛