标准回答
红队是什么
红队测试(Red Teaming)是一种主动对抗式安全评估:测试者扮演攻击者,刻意诱导模型产生有害、违规或不该有的行为,从而在真实危害发生前发现风险。
怎么做
- 威胁建模:先定义关注的危害类别(暴力、违法、隐私、偏见、网络/生物滥用等)和攻击者画像。
- 攻击手法:对抗提示、越狱(绕过安全策略)、提示注入、多轮诱导、角色扮演、编码混淆、边界与长尾用例。
- 人工 + 自动:人类红队擅长发现新颖创意攻击;自动化红队用攻击模型/模板批量生成对抗样本,扩大覆盖与回归测试。
形成闭环
发现的成功攻击被整理成评测基准,反哺到防护:拒答策略、输入/输出护栏、分类器拦截、以及安全微调。随模型与攻击演化反复迭代。
多方视角
红队需平衡安全与可用性——过度防御会增加误拒(拒答正常请求)。同时应有清晰的范围、授权与披露流程,避免测试本身造成伤害。
常见误区
⚠️ 常见踩坑
别把红队当成一次性的上线前打勾。攻击手法和模型能力都在变,红队必须是持续迭代的流程;且红队只发现问题,真正降低风险靠后续的护栏、再训练与评测回归。
追问
追问 1:人工红队与自动化红队各有什么优劣?
人工红队创意强、能发现全新攻击面和语境化危害,但成本高、覆盖有限、难复现。自动化红队(攻击模型/模板批量生成)可规模化、可回归、覆盖广,但易陷入已知模式、缺乏新颖性。实践中两者互补:人工探路、自动放大并做持续回归。
追问 2:红队和常规评测基准(benchmark)有何区别?
常规基准多是静态、面向能力或既定测试集的被动评估,衡量「平均表现」。红队是动态、对抗式的,主动构造最坏情况来逼出失败,关注「尾部风险」。两者互补:基准给可比的整体分数,红队发现基准覆盖不到的安全漏洞,并可把发现沉淀为新基准。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。