红队测试

专门攻击自己的 AI

红队测试（Red Teaming）是一种对抗性安全评估方法，由专门团队以攻击者视角主动探测 AI 系统的弱点，在部署前发现有害输出、越狱路径与对齐缺陷。该方法起源于冷战时期军事演练，经网络安全领域演化后，于 2022 年被系统化引入大型语言模型安全评估，已成为主流 AI 实验室发布前的标准安全流程。

概述

起源与背景

「红队」一词来自冷战时期军事对抗演练，历经数十年演化后进入 AI 安全领域。

冷战起源：1960 年代，美国军方在战争模拟中以「红队」代指扮演苏联一方的对抗小组，负责从敌方视角寻找己方防御漏洞，「蓝队」则代表本方防守方。
进入网络安全：20 世纪 90 年代后，红队演练成为渗透测试与企业安全评估的核心方法，被广泛用于发现软件与基础设施的安全弱点。
迁移至 AI：2022 年，Perez 等人（DeepMind & NYU）在 EMNLP 发表论文，首次系统提出用另一个语言模型自动化对目标 LLM 进行红队测试的方法，奠定该领域学术基础。
政策认可：2023 年美国行政令与白宫自愿承诺明确将发布前红队测试列为核心 AI 安全实践，正式纳入联邦监管框架。

工作原理

红队测试的核心流程覆盖从攻击设计到结果反馈的完整闭环。

制定攻击目标：明确测试范围，例如诱导有害内容生成、绕过安全过滤、泄露系统提示词或获取危险专业信息等。
设计并执行攻击：人工构造或借助自动化工具生成对抗性输入；常见手法包括直接指令越狱、角色扮演包装、多语言切换以及多轮对话累积误导。
自动化红队：用另一个 LLM 大规模生成候选攻击提示，再用分类器评估目标模型是否产生有害输出，可大幅扩展测试覆盖面——此为 Perez 等人 2022 年论文的核心贡献。
记录与反馈：将失败案例整理后反馈给训练团队，用于修复安全过滤器或更新 RLHF 训练数据，形成持续改进闭环。

主要类型

红队测试可按参与者来源、目标维度和攻击模态进行分类。

内部红队：由研发团队自行组织，响应速度快，但易受「内部视角盲点」限制。
外部红队：聘请独立安全研究者或专业机构，视角多样，能发现内部团队的认知盲区；多家实验室在重大模型发布前均引入此机制。
安全性（Safety）红队：关注有害输出、歧视性内容、危险信息生成等对齐风险。
安全（Security）红队：关注提示注入、数据泄露、模型提取等技术安全风险。
多模态红队：针对视觉-语言模型，测试在图片或音频中嵌入指令以绕过文本过滤的攻击场景。

与相邻概念的区别

红队测试在方法和立场上与多个相近概念存在明确差异。

红队测试 vs 越狱：越狱是外部攻击者的未授权行为；红队测试是模型所有者主动授权的内部安全评估，目的截然不同。
红队测试 vs 评测基准：基准测试用固定题库衡量已知能力维度；红队测试专门挖掘基准覆盖不到的盲点和新型攻击面。
红队测试 vs 渗透测试：方法论高度相似，区别在于对象——传统渗透测试针对软件系统漏洞，AI 红队测试的对象是模型行为与输出。
红队测试 vs 对抗样本：对抗样本研究通常聚焦于感知层面（如图像分类欺骗）；AI 红队测试范围更广，涵盖语义层面的策略性欺骗。

实际应用

红队测试贯穿 AI 模型从研发到运营的全生命周期，已被纳入主流治理框架。

发布前审查：Anthropic（Claude 系列）、OpenAI（GPT-4）、Google DeepMind 等头部实验室均在重大模型发布前开展大规模红队测试，并在技术报告中公开部分结果。
持续运营：以阶段性方式应对新出现的攻击手法，在模型版本迭代后重新执行，覆盖多语言与多模态攻击面。
高风险专项测试：对 CBRN（化学、生物、放射、核）等高危信息领域进行专门评估，确保模型不被用于实际伤害。
政策合规：2023 年美国白宫联合多家 AI 公司的自愿承诺将发布前红队测试列为核心安全实践；欧盟 AI 法案明确要求高风险 AI 系统开展对抗性测试。

挑战与局限

尽管红队测试已被广泛采用，其固有局限同样不容忽视。

覆盖不完整：攻击场景依赖已知模式，新型手法难以提前预判，「通过测试」不等于「没有漏洞」。
文化与语言盲区：大多数红队团队构成较为单一，对特定语言或地区有害内容的检测往往不足。
心理健康风险：长期接触有害内容的人工测试人员面临职业性心理损伤，相关保护机制尚不完善。
评估标准不统一：不同机构对「成功攻击」的定义和严重程度分级各异，跨机构比较困难。
军备竞赛效应：防御措施公开后，攻击者随即调整策略，测试结论存在时效性，需随模型迭代持续更新。

发展脉络

AI 红队测试在 2020 年代初随大型语言模型规模扩张而兴起，近年来快速制度化。

2022 年：Perez 等人（DeepMind & NYU）于 EMNLP 发表论文，提出「用 LLM 红队测试 LLM」的自动化范式，奠定该领域学术基础；多家实验室开始在重大模型发布时引入外部红队机制。
2023 年：OpenAI 在 GPT-4 技术报告中系统披露红队测试方法；美国白宫联合 Anthropic、Google、Meta、Microsoft、OpenAI 等签署自愿承诺，将红队测试列为核心安全实践；自动化红队研究大量涌现。
2024 年至今：欧盟 AI 法案正式生效，要求高风险系统开展对抗性测试；英美两国 AI 安全研究所（AISI）与主要实验室合作开展前沿模型红队评估；多模态红队与 Agentic AI 红队成为新兴前沿方向。

常见误解

日常交流中容易听到的简化说法，未必准确，但能帮助理解误解从何而来。

「专门攻击自己的 AI」
「AI 安全与合规」
「跟红队测试是一回事吗」

延伸阅读

从知识库精选 2 篇文章，帮助深入理解该术语。

外部参考

维基百科：查看「红队测试」词条

本页内容为本站原创撰写；维基百科链接仅作延伸参考。