思科发布了迄今为止最全面的 AI 模型安全基准研究。
研究规模:
- 15 款模型:OpenAI (GPT-5.2, GPT-5.4)、Anthropic (Opus 4.5/4.6, Sonnet 4.5/4.6, Haiku 4.5)、Google (Gemini 3 Pro)、Amazon (Nova Lite/Micro/2 Lite)、xAI (Grok 4.1 Fast)
- 30090 个单轮提示词 + 6986 个多轮攻击
关键发现:
- 多轮攻击成功率:7.89% - 88.30%,差距一个数量级
- Claude 系列:单轮 2.19%-3.64% → 多轮 11.16%-16.20%
- GPT-5.4:单轮 2.74% → 多轮 24.68%(9 倍增长)
- Gemini 3 Pro:单轮 18.10% → 多轮 73.35%(4 倍增长)
- 最低风险:Amazon Nova 2 Lite 仍有 7.89% 多轮攻击成功率
核心结论:
- 单轮攻击成功率不能作为模型安全性的可靠指标
- 多轮攻击下的模型排序与单轮完全不同
- 所有测试模型都表现出不可忽视的多轮攻击风险
来源: Cisco AI Blog
链接: https://blogs.cisco.com/ai/proprietary-problems