核心要点

  • 红队目标:在上线前主动诱发有害、违规或越界输出,暴露模型与系统的安全短板。

  • 手段:对抗提示、越狱、提示注入、角色扮演、边界/罕见用例,覆盖多类危害(暴力、隐私、欺诈等)。

  • 人工 + 自动结合:人工创意攻击发现新模式,自动化(攻击模型/模板)规模化扩展覆盖。

  • 产出闭环:把发现固化为评测集与防护(拒答、护栏、再训练),持续迭代而非一次性。

标准回答

红队是什么

红队测试(Red Teaming)是一种主动对抗式安全评估:测试者扮演攻击者,刻意诱导模型产生有害、违规或不该有的行为,从而在真实危害发生前发现风险。

怎么做

  • 威胁建模:先定义关注的危害类别(暴力、违法、隐私、偏见、网络/生物滥用等)和攻击者画像。
  • 攻击手法:对抗提示、越狱(绕过安全策略)、提示注入、多轮诱导、角色扮演、编码混淆、边界与长尾用例。
  • 人工 + 自动:人类红队擅长发现新颖创意攻击;自动化红队用攻击模型/模板批量生成对抗样本,扩大覆盖与回归测试。

形成闭环

发现的成功攻击被整理成评测基准,反哺到防护:拒答策略、输入/输出护栏、分类器拦截、以及安全微调。随模型与攻击演化反复迭代。

多方视角

红队需平衡安全与可用性——过度防御会增加误拒(拒答正常请求)。同时应有清晰的范围、授权与披露流程,避免测试本身造成伤害。

常见误区

⚠️ 常见踩坑

别把红队当成一次性的上线前打勾。攻击手法和模型能力都在变,红队必须是持续迭代的流程;且红队只发现问题,真正降低风险靠后续的护栏、再训练与评测回归。

追问

追问 1人工红队与自动化红队各有什么优劣?

人工红队创意强、能发现全新攻击面和语境化危害,但成本高、覆盖有限、难复现。自动化红队(攻击模型/模板批量生成)可规模化、可回归、覆盖广,但易陷入已知模式、缺乏新颖性。实践中两者互补:人工探路、自动放大并做持续回归。

追问 2红队和常规评测基准(benchmark)有何区别?

常规基准多是静态、面向能力或既定测试集的被动评估,衡量「平均表现」。红队是动态、对抗式的,主动构造最坏情况来逼出失败,关注「尾部风险」。两者互补:基准给可比的整体分数,红队发现基准覆盖不到的安全漏洞,并可把发现沉淀为新基准。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。