AI 红队（Red Teaming）是如何开展的？

Question 1

Accepted Answer

红队是什么 红队测试（Red Teaming）是一种主动对抗式安全评估：测试者扮演攻击者，刻意诱导模型产生有害、违规或不该有的行为，从而在真实危害发生前发现风险。 怎么做 - 威胁建模：先定义关注的危害类别（暴力、违法、隐私、偏见、网络/生物滥用等）和攻击者画像。 - 攻击手法：对抗提示、越狱（绕过安全策略）、提示注入、多轮诱导、角色扮演、编码混淆、边界与长尾用例。 - 人工 + 自动：人类红队擅长发现新颖创意攻击；自动化红队用攻击模型/模板批量生成对抗样本，扩大覆盖与回归测试。 形成闭环 发现的成功攻击被整理成评测基准，反哺到防护：拒答策略、输入/输出护栏、分类器拦截、以及安全微调。随模型与攻击演化反复迭代。 多方视角 红队需平衡安全与可用性——过度防御会增加误拒（拒答正常请求）。同时应有清晰的范围、授权与披露流程，避免测试本身造成伤害。

Question 2

人工红队与自动化红队各有什么优劣？

Accepted Answer

人工红队创意强、能发现全新攻击面和语境化危害，但成本高、覆盖有限、难复现。自动化红队（攻击模型/模板批量生成）可规模化、可回归、覆盖广，但易陷入已知模式、缺乏新颖性。实践中两者互补：人工探路、自动放大并做持续回归。

Question 3

红队和常规评测基准（benchmark）有何区别？

Accepted Answer

常规基准多是静态、面向能力或既定测试集的被动评估，衡量「平均表现」。红队是动态、对抗式的，主动构造最坏情况来逼出失败，关注「尾部风险」。两者互补：基准给可比的整体分数，红队发现基准覆盖不到的安全漏洞，并可把发现沉淀为新基准。

AI 红队（Red Teaming）是如何开展的？

核心要点

标准回答

常见误区

追问

延伸学习