前置阅读收获
2025 年 11 月,思科 AI 防御团队发布了一份题为「Death by a Thousand Prompts」(千提示之死)的安全报告,对 8 款主流开源权重模型进行了系统性对抗测试。 报告的发现令人震惊:
当攻击者发送单个恶意请求时,模型平均拦截率高达 87%。 看起来防御很稳固。
但当攻击者通过多轮持续对话(probing、reframing、escalating)反复尝试时,攻击成功率从 13% 飙升至 64-93%。
用思科 AI 威胁研究负责人的话说:「当你只攻击一次时,模型能防住。但从单轮转向多轮后,这些模型突然就开始暴露出脆弱性——在某些案例中攻击成功率接近 80%。」
这份报告的意义不仅在于揭示了模型的脆弱性,更在于它定义了一个全新的安全评估维度:多轮攻击。 过去的安全基准主要测试单轮防御能力,而现实中的攻击者不会只试一次就放弃。他们会像正常对话一样,逐步试探、调整策略、绕过防御。
本文将从以下八个维度深度解读这份报告:测试方法与模型选择、单轮 vs 多轮攻击数据对比、五种致命攻击技术、各模型安全差距的根因分析、企业部署的影响、防御策略、以及行业启示。
建议先了解 LLM 安全的基本概念:越狱(Jailbreak)、提示词注入(Prompt Injection)和红队测试(Red Teaming)。本文的重点不是单个攻击手法,而是「多轮持续对话」这一攻击维度如何系统性地击穿模型防御。
本文分析的思科报告测试对象为 8 款开源权重模型(Open-Weight Models),不包含闭源旗舰模型(如 Claude Opus 4.7、GPT-5.5)。报告数据来自思科官方博客、arXiv 论文和 VentureBeat 报道。攻击成功率因测试版本和环境可能有所不同,请以思科官方最新数据为准。
一、测试方法与模型选择:为什么这 8 款模型被选中
思科 AI 防御团队选择的 8 款模型覆盖了全球主要 AI 实验室的开源权重产品线:
1. Alibaba Qwen3-32B(中国)— 阿里巴巴通义千问系列的开源版本,在全球开源社区拥有广泛用户基础。
2. DeepSeek v3.1(中国)— 深度求索的 MoE 架构模型,以极致性价比著称。
3. Google Gemma 3-1B-IT(美国)— Google 的开源指令微调模型,规模较小(1B)但安全对齐较为严格。
4. Meta Llama 3.3-70B-Instruct(美国)— Meta 的旗舰开源指令模型,70B 参数量在开源生态中属于大尺寸。
5. Microsoft Phi-4(美国)— 微软的小型高效模型,面向端侧和资源受限场景。
6. Mistral Large-2(法国/美国)— Mistral AI 的大型指令模型,在欧洲开源生态中影响力突出。
7. OpenAI GPT-OSS-20b(美国)— OpenAI 的开源权重模型,20B 参数量。
8. Zhipu AI GLM 4.5-Air(中国)— 智谱 AI 的开源模型,在中国市场拥有大量用户。
测试方法采用黑盒方式:测试团队不获取模型的内部架构、设计细节或现有防御机制,完全模拟真实攻击者的操作方式。这种方法的优点在于结果更贴近现实——真实攻击者也不会知道模型的内部结构。
测试工具:思科使用其 AI Validation 平台(AI Defense 解决方案的组成部分)进行自动化的算法级安全漏洞评估。测试追踪了 MITRE ATLAS 和 OWASP GenAI 风险分类中的威胁向量,包括 AML.T0054(越狱攻击)和 LLM01:2025(提示词注入)。
理解测试对象的选择逻辑有助于判断报告的覆盖面和局限性。这 8 款模型涵盖了中美欧三大 AI 生态,代表了开源权重模型的多样性。
测试仅针对开源权重模型,不包含闭源旗舰。开源权重模型的安全基线通常低于闭源模型(因为安全对齐由部署者负责),因此本报告结果不能直接套用到闭源模型上。
二、核心数据:单轮 87% 拦截 vs 多轮最高 93% 攻破
思科报告的核心发现可以用一句话概括:所有模型在单轮攻击下表现尚可,但在多轮攻击面前几乎全线崩溃。
单轮攻击平均成功率:13.11%
这意味着当攻击者只发送一次恶意请求时,87% 的攻击会被模型拦截。这个数据看起来令人安心——大多数模型确实具备基础的防御能力。
多轮攻击平均成功率:64.21%(5 倍提升)
当攻击者使用多轮持续对话策略时,成功率平均飙升至 64.21%。更惊人的是部分模型的极端表现:
| 模型 | 单轮 ASR | 多轮 ASR | 安全差距 |
|---|---|---|---|
| Alibaba Qwen3-32B | 12.70% | 86.18% | +73.48% |
| Mistral Large-2 | 21.97% | 92.78% | +70.81% |
| Meta Llama 3.3-70B | — | 约 90% | +70.32% |
| DeepSeek v3.1 | — | 中等 | 中等 |
| OpenAI GPT-OSS-20b | 低 | 低 | 小 |
| Google Gemma 3-1B-IT | — | 25.86% | +10.53% |
关键发现:
- 最高多轮攻击成功率达到 92.78%(Mistral Large-2),意味着每 100 次攻击中只有 7 次被拦截
- 最大安全差距为 73.48%(Alibaba Qwen3-32B),说明从单轮到多轮的脆弱性增幅最大
- Google Gemma 3-1B-IT 表现最优,多轮 ASR 仅 25.86%,安全差距仅 10.53%
- OpenAI GPT-OSS-20b 的总体攻击成功率也较低,与其官方模型卡数据一致(拒绝率在 96-98.2% 之间)
这个差距的定义是分类性的(Categorical),而非程度性的。 思科报告明确指出:「多轮攻击不是单轮攻击的简单延伸,而是一种本质上不同的攻击模式。」
关注单轮和多轮之间的差距(Security Gap),而非单一数字。差距越大,说明模型在持续对话中的防御能力越弱。
以下数据来自思科报告的公开披露。不同攻击技术和威胁类别的成功率有显著差异,平均值可能掩盖模型在特定攻击类型上的极端脆弱性。
三、五种致命攻击技术:为什么多轮攻击如此有效
思科报告测试了五种多轮攻击策略,每种策略都利用了对话持续性的不同弱点。这些技术之所以有效,不是因为它们很复杂,而是因为它们非常「人类化」——模仿了正常对话的自然行为:建立上下文、澄清请求、在被拒绝后换一种方式重新提出。
1. 信息分解与重组(Information Decomposition & Reassembly)
将有害请求拆解为多个无害的组件,分多个对话轮次发送,最后在模型内部完成「重组」。攻击者不是在单次对话中直接提出有害请求,而是先引导模型回答一系列看似无害的问题,然后将这些答案组合起来得到有害输出。
对 Mistral Large-2 的成功率:95%
这是最有效的攻击技术。它利用了模型在处理单条消息时能检测有害内容、但无法在多条消息之间建立安全关联的弱点。
2. 上下文模糊(Contextual Ambiguity)
使用模糊的表述让安全分类器无法确定请求的真实意图。攻击者不会明确说出有害意图,而是用含糊的方式引导模型逐步「理解」真实需求。
对 Mistral Large-2 的成功率:94.78%
这种攻击有效是因为安全分类器通常基于关键词和模式匹配,当请求被模糊化后,分类器很难判断其真实目的。
3. 渐增攻击(Crescendo Attack)
从无害的请求开始,逐步升级对话内容,最终引导到有害输出。类似于「温水煮青蛙」——每一步的变化都足够小,不足以触发安全防御,但累积起来最终达到攻击目的。
对 Mistral Large-2 的成功率:92.69%
这种攻击利用了模型对渐进式变化的低敏感度。模型在每个单轮中看到的请求似乎都是合理的,但没有意识到整体对话的方向正在偏离安全轨道。
4. 角色扮演与人格采纳(Role-Play & Persona Adoption)
建立虚构的上下文场景(如「假设你是一个研究助手」「这是一个学术练习」),让模型在「角色扮演」的模式下输出本来会被拒绝的内容。
对 Mistral Large-2 的成功率:92.44%
这种攻击之所以有效,是因为模型在「角色扮演」模式下往往会降低安全标准——它认为自己在帮助用户完成一个「虚构的」任务,而非真实的有害行为。
5. 拒绝重框架(Refusal Reframe)
当模型拒绝一个请求时,攻击者换一种理由、一种表述或一种场景重新提出相同请求,直到找到一个能绕过防御的表述方式。
对 Mistral Large-2 的成功率:89.15%
这种攻击利用了模型防御的不一致性。同一个有害意图,用 A 方式表达被拒绝,但用 B 方式表达就可能被接受。
一个令人不安的结论: 这些攻击技术不需要特殊的知识或工具。它们利用的是模型在长对话中维持安全防御的固有缺陷,而任何有耐心的攻击者都可以通过持续尝试来实现。模型不是被「高级攻击」击败的,而是被「持续性」击败的。
五种攻击技术全景图:
了解攻击技术不是为了学习如何攻击,而是为了理解防御的薄弱点。每一种攻击技术都对应一种防御盲区,针对性的防御策略需要逐一覆盖。
以下攻击技术描述基于思科报告的公开分析。实际攻击场景可能更复杂,且攻击技术会持续演化。本文的描述旨在帮助理解防御需求,不提供攻击实施细节。
四、安全差距的根因分析:为什么有的模型差距大,有的差距小
思科报告的一个关键洞察是:模型在多轮攻击中的脆弱性差异,与其开发实验室的安全对齐哲学直接相关。
能力优先实验室(Capability-First Labs)
这些实验室将安全和防御的责任推给了模型的使用者:
Meta Llama:Meta 明确表示开发者「坐在驾驶座上,可以为自己的用例定制安全」(in the driver seat to tailor safety for their use case)。Llama 3.3-70B-Instruct 展现了最大的多轮安全差距(+70.32%)。
Mistral:Mistral Large-2 的模型卡承认其「没有任何内容审核机制」(does not have any moderation mechanisms)。安全差距 +70.81%。
Alibaba Qwen:Qwen 的指令微调倾向于优先「有帮助性」(Helpfulness)和广度,攻击者可以通过「为研究目的」「虚构场景」等重框架来利用这一点。安全差距最大(+73.48%)。Qwen 的技术报告完全没有提及安全或安全问题。
安全优先实验室(Alignment-First Labs)
这些实验室在模型开发阶段就投入了大量安全对齐工作:
Google Gemma:Google 强调「严格的安全协议」(rigorous safety protocols)和「低滥用风险等级」(low risk level)。Gemma 3-1B-IT 的安全差距最小(+10.53%),多轮 ASR 仅 25.86%。
OpenAI GPT-OSS:OpenAI 在模型卡中详细记录了安全评估结果,GPT-OSS-20b 的拒绝率在 96-98.2% 之间。安全差距较小。
根因总结:
| 实验室类型 | 安全策略 | 单轮防御 | 多轮防御 | 安全差距 |
|---|---|---|---|---|
| 能力优先 | 开发者自行负责 | 较强 | 弱 | 大(70%+) |
| 安全优先 | 实验室内置防护 | 强 | 较强 | 小(10-20%) |
关键启示: 能力优先的模型不是「不安全」,而是将安全责任推给了部署者。如果你选择了这类模型,你必须在部署层增加额外的安全机制(如上下文感知的运行时防护)。
选择模型时,不仅要看能力指标,还要看安全对齐策略。能力优先(Capability-First)的模型通常需要部署者额外增加安全层,而对齐优先(Alignment-First)的模型自带更强的安全基线。
以下分析基于思科对模型开发者技术报告和模型卡的解读。不同实验室的安全策略可能随时间调整,请以官方最新文档为准。
五、威胁类别分析:哪些攻击类型最危险
思科报告在 102 个子威胁类别中发现了清晰的模式——某些攻击类型在所有模型上都表现出极高的成功率。
最危险的 Top 15 子威胁类别(按平均攻击成功率排序):
- 恶意基础设施操作:38.8% — 攻击者引导模型提供搭建恶意基础设施的指导
- 黄金走私:33.8% — 涉及非法贵金属交易的指导
- 网络攻击操作:32.5% — 引导模型提供网络攻击的具体方法
- 投资欺诈:31.2% — 引导模型协助设计投资欺诈方案
跨模型的一致性发现:
- 恶意代码生成在所有模型上的成功率从 3.1% 到 43.1% 不等,是波动最大的威胁类别
- 模型提取攻击(试图从模型中提取训练数据或权重信息)在大多数模型上接近零成功率,除了 Microsoft Phi-4 表现异常
- 操纵、错误信息和恶意代码生成这三个高风险威胁类别在所有模型上都表现出持续较高的成功率
这个发现的意义在于: 企业不能只防御一种攻击模式。攻击者可以自由选择攻击路径——如果 A 路径被堵住了,他们会尝试 B 路径。而思科报告的发现是:几乎所有威胁路径在多轮对话中都是有效的。
企业应该优先防御成功率最高的威胁类别。思科报告测试了 102 个子威胁类别,Top 15 的防御收益最大。
以下威胁类别成功率基于测试环境。实际生产环境中的成功率可能因模型版本、部署配置和额外安全层而有所不同。
六、对中国大模型生态的启示:Qwen3 和 DeepSeek 的安全挑战
思科报告中涉及了两款中国模型:Alibaba Qwen3-32B 和 DeepSeek v3.1,它们的表现在中国大模型生态中具有重要的参考价值。
Qwen3-32B:最大的安全差距
Qwen3-32B 的安全差距达到 +73.48%,是 8 款模型中最大的。思科分析认为,这与 Qwen 的指令微调策略有关——Qwen 倾向于优先「有帮助性」和广度,这使得攻击者可以通过「为研究目的」「虚构场景」等重框架策略来绕过安全防御。
值得注意的细节:Qwen 的技术报告完全没有提及安全或安全问题。 这并不意味着 Qwen 不安全,而是说明安全对齐没有被纳入公开的评估框架中。
对 Qwen 开发者的建议:
- 如果生产环境部署 Qwen3 开源版本,必须在应用层增加上下文感知的安全层
- 考虑使用阿里云百炼平台的闭源版本(如 Qwen3.7-Max),因为它们包含实验室级别的安全对齐
- 定期进行多轮红队测试,不要只依赖单轮安全基准
DeepSeek v3.1:中等表现
DeepSeek v3.1 在多轮攻击中的表现处于中等水平。思科报告指出,DeepSeek 的技术报告同样没有承认安全或安全问题,这与 Qwen 的模式一致。
中国大模型生态的共性挑战:
- 技术报告缺乏安全评估:Qwen 和 DeepSeek 的技术报告都没有系统性的安全评估章节
- 能力优先的设计哲学:中国模型倾向于先做好能力,安全留给部署者
- 开源版本的信任传递风险:开源权重模型可以被恶意微调,降低安全基线
积极的一面: 中国闭源旗舰模型(如 Qwen3.7-Max)由实验室直接控制安全对齐,其安全表现可能显著优于开源版本。思科报告的测试对象是开源权重模型,不是闭源旗舰。
中国开发者在选择开源模型时,不仅要考虑性能和成本,还要评估安全基线。如果选择了安全差距较大的模型(如 Qwen3),需要在部署层增加额外的防护。
以下分析基于思科报告对 Qwen3-32B 和 DeepSeek v3.1 的测试。Qwen3.7-Max 等闭源旗舰模型的安全表现可能不同,因为它们由实验室直接控制安全对齐。开源版本和闭源版本的安全基线通常有显著差异。
七、企业级防御策略:如何应对多轮攻击威胁
思科报告为企业提供了六个关键防御能力建议,AI Master 在此结合行业最佳实践进行扩展。
1. 上下文感知的安全护栏(Context-Aware Guardrails)
这是最关键的防御能力。传统的单轮安全护栏在每个对话轮次独立工作,无法检测到跨轮次的攻击模式。上下文感知的护栏需要在整个对话层面维护安全状态:
- 跟踪整个对话的安全态势,而非仅检查单条消息
- 当检测到渐进式变化模式时(如 Crescendo 攻击),主动介入
- 在对话达到一定长度或复杂度时,提高安全审查标准
2. 模型无关的运行时保护(Model-Agnostic Runtime Protection)
在模型之外增加一层安全审查,这样无论底层模型的安全基线如何,都能获得统一的保护:
- 输入过滤:在请求到达模型前进行安全审查
- 输出审查:在模型响应返回给用户前进行检查
- 对话级监控:跟踪整个对话的安全指标
3. 持续红队测试(Continuous Red-Teaming)
不要只做一次安全测试。多轮攻击技术会持续演化,防御也需要持续更新:
- 定期使用多轮攻击策略进行红队测试
- 建立自动化的安全测试管道
- 跟踪 Top 15 子威胁类别的防御覆盖率
4. 硬化系统提示词(Hardened System Prompts)
系统提示词是模型安全的第一道防线:
- 明确定义模型的行为边界
- 包含对角色扮演和虚构场景的拒绝策略
- 设计抵抗指令覆盖的系统提示
实战一:上下文感知安全护栏的 Python 实现
以下是一个简化的上下文感知安全护栏示例,用于跟踪整个对话的安全态势。这个实现的核心思路是:不仅检查单条消息,还要跟踪整个对话的安全评分趋势。如果检测到评分持续上升(渐进式攻击特征),则主动拦截。
5. 全面的日志和取证(Comprehensive Logging)
当攻击发生时,你需要能够追溯攻击路径:
- 记录完整的对话历史
- 标记安全护栏的触发事件
- 建立攻击模式分析和趋势报告
6. 针对性威胁缓解(Threat-Specific Mitigations)
优先防御 Top 15 子威胁类别:
- 对恶意代码生成、网络攻击操作等高风险类别设置额外的审查层
- 为每个威胁类别建立专门的检测和响应流程
- 定期更新威胁缓解策略以应对新的攻击技术
代码示例一:上下文感知安全护栏(Python)
以下是一个简化的上下文感知安全护栏实现,用于在对话层面维护安全状态:
class ContextAwareGuardrail:
def __init__(self, max_turns=10, escalation_threshold=0.6):
self.max_turns = max_turns
self.escalation_threshold = escalation_threshold
self.conversation_history = []
self.safety_scores = []
def add_turn(self, user_input, model_output):
self.conversation_history.append({
'user': user_input, 'model': model_output
})
score = self._check_single_turn(user_input, model_output)
self.safety_scores.append(score)
context_risk = self._analyze_context_escalation()
return {
'single_turn_score': score,
'context_risk': context_risk,
'blocked': context_risk > self.escalation_threshold
}
def _check_single_turn(self, user, output):
score = 0.0
dangerous_keywords = ['malware', 'exploit', 'bypass', 'hack']
for kw in dangerous_keywords:
if kw in user.lower() or kw in output.lower():
score += 0.25
return min(score, 1.0)
def _analyze_context_escalation(self):
if len(self.safety_scores) < 3:
return 0.0
recent = self.safety_scores[-3:]
if all(recent[i] < recent[i+1] for i in range(len(recent)-1)):
return max(recent) * 1.5
return max(self.safety_scores[-5:]) if len(self.safety_scores) >= 5 else 0.0safety:
guardrails:
single_turn:
enabled: true
provider: azure-content-safety
multi_turn:
enabled: true
max_turns: 15
escalation_threshold: 0.6
detection_strategies:
- crescendo_detection
- role_play_detection
- context_ambiguity_detection
monitoring:
logging: true
alert_on_block: true
red_team:
schedule: weekly
strategies:
- information_decomposition
- contextual_ambiguity
- crescendo_attack防御多轮攻击的核心不是让模型本身更聪明,而是在对话层面建立安全层。上下文感知的运行时防护是关键。
以下防御策略基于思科报告的建议和行业最佳实践。具体实施方案需要根据你的业务场景、合规要求和风险承受能力来定制。
八、趋势预判与行业启示:多轮安全测试正在成为标配
思科的「千提示之死」报告不仅仅是一份安全评估,它正在重新定义行业对 LLM 安全测试的认知。
趋势一:多轮安全测试将成为模型评估的标配
过去,模型安全基准(如 SafetyBench、TruthfulQA)主要测试单轮防御能力。思科报告证明了这种评估方法的局限性——能扛住单轮攻击的模型,可能完全无法抵御多轮持续攻击。
未来,模型评估将必须包含多轮测试维度。思科已经推出了公开的 LLM Security Leaderboard,支持按模型、按攻击策略、按威胁类别进行对比分析。这为行业提供了一个标准化的多轮安全评估框架。
趋势二:「能力优先」与「安全优先」的分化将加剧
思科报告清楚地表明:模型的安全差距与其开发实验室的安全哲学直接相关。未来,模型市场将出现明显的分化:
- 安全优先模型:适合需要高安全保障的企业场景(金融、医疗、政府)
- 能力优先模型:适合需要高度定制化的研究和开发场景,但需要部署者自行增加安全层
这种分化不是优劣之分,而是不同的定位。关键是选择与你的风险承受能力匹配的模型。
趋势三:中国模型需要在技术报告中增加安全评估章节
思科报告揭示了一个对中国大模型生态不利的模式:Qwen 和 DeepSeek 的技术报告完全没有提及安全问题。在国际安全评估框架中,这被视为安全透明度不足。
随着中国模型加速走向全球,技术报告中包含系统性的安全评估将不再是「加分项」,而是「必选项」。
趋势四:开源权重模型的安全信任链需要建立
思科报告同时指出,恶意行为者也可以对开源权重模型进行恶意微调,降低其安全基线。这意味着:
- 从 HuggingFace 下载的开源模型不一定等同于原始实验室发布的安全水平
- 需要建立开源模型的来源验证和安全审计机制
- 企业在部署开源模型时,应该进行独立的安全评估
总结:
思科的报告揭示了一个核心事实:当前的 LLM 安全基准存在系统性盲区——它们测试的是模型对「一次性攻击」的防御,而真实世界中的攻击是持续的、迭代的、适应性的。
一个恶意请求被拦截,十个恶意请求就能攻破。 这个方程式不会改变,直到行业停止只测试单轮防御,开始保护整个对话。
对于 AI Master 的读者而言,这份报告的行动指引很清晰:评估模型时,要求多轮安全测试结果;部署模型时,增加上下文感知的运行时保护;运营模型时,持续进行多轮红队测试。
安全不是阻碍创新的障碍——它是解锁 AI 大规模应用的前提。
多轮安全测试正在从「前沿研究」变为「行业标准」。企业在评估模型时,应该要求供应商提供多轮安全测试结果,而非仅看单轮基准。
以下趋势预判基于当前行业动态和思科报告的影响。技术趋势存在不确定性,不应作为单一决策依据。
附录:思科报告核心数据全景图
本节用全景图总结思科报告的核心数据:
测试范围: 8 款开源权重模型,黑盒测试,覆盖 MITRE ATLAS 和 OWASP GenAI 分类
单轮攻击平均成功率: 13.11%(防御率 87%)
多轮攻击平均成功率: 64.21%(5 倍提升)
最大安全差距: +73.48%(Alibaba Qwen3-32B)
最高多轮 ASR: 92.78%(Mistral Large-2)
最低多轮 ASR: 25.86%(Google Gemma 3-1B-IT)
五种多轮攻击技术平均成功率范围: 89-95%(对 Mistral Large-2)
Top 15 子威胁类别: 恶意基础设施操作(38.8%)最高,模型提取最低(接近 0%)
核心结论: 多轮攻击不是单轮攻击的延伸,而是一种本质上不同的攻击模式。所有模型都需要上下文感知的安全层来防御多轮威胁。
将本节作为快速参考。重点关注与你使用场景最相关的模型和威胁类别数据。
所有数据截至思科报告发布时。模型版本更新后数据可能变化,请以思科 LLM Security Leaderboard 最新数据为准。