1概念:什么是 AI 安全审查制度?
AI 安全审查制度是指由政府机构对前沿 AI 模型在公开发布前进行的系统性安全评估流程。其核心目标是:在模型能力可能对社会造成重大影响之前,由政府和专业机构对其进行网络安全、生物安全、核安全等多维度的风险评估,并根据评估结果决定是否允许发布、是否需要附加限制条件。
2026 年 6 月 2 日,美国总统特朗普签署了一项新的 AI 安全行政令,标志着全球最具影响力的 AI 经济体正式建立了前沿模型发布前的安全审查框架。该行政令要求 AI 公司在发布新模型前,自愿将模型提交给政府进行为期 30 天的安全审查。
行政令原文节选:「It is the policy of the United States to promote AI innovation and security by working collaboratively with the private sector to modernize government and private sector information systems and harden them against external threats; to protect American ingenuity and intellectual property from exploitation and theft by adversaries; and to cultivate America's advanced AI-enabled capabilities.」
这一政策转变的意义在于:此前特朗普政府在 2026 年 5 月 21 日取消了原定的 AI 行政令,理由是「过度监管可能削弱美国在 AI 领域的全球竞争力」。然而不到两周后,新的行政令以自愿审查的形式重新引入了发布前安全评估机制,体现了在安全与创新之间的妥协性平衡。
AI 安全审查制度与传统的 AI 监管不同:它关注的不是 AI 的应用场景(如医疗 AI 需要医疗器械审批),而是模型本身的能力——模型是否能被用于恶意目的,其能力边界在哪里,是否构成国家安全威胁。
审查的核心对象包括三个层面:首先是模型的网络安全能力——能否自主发现、利用和防御网络漏洞;其次是生物化学安全能力——是否能设计有害分子或病原体;最后是自主规划与欺骗能力——是否能独立制定复杂攻击计划或操控人类决策者。这三个维度共同构成了前沿模型安全评估的基本框架。
来源:AP News、Axios、Washington Post、Deadline 对 2026 年 6 月 2 日特朗普 AI 安全行政令的报道。
理解 AI 安全审查的关键区分:传统监管关注「AI 用在哪里」,安全审查关注「AI 本身有多强」。前者是应用层面的监管,后者是能力层面的管控。
「自愿审查」一词容易被误解为「无约束」。实际上,一旦企业选择参与,30 天的审查期将实质性地延迟产品上市,且审查结果可能附带不公开的约束条件。企业需要评估参与的利弊。
2原理:AI 安全审查的核心逻辑与技术基础
AI 安全审查的理论基础源于一个日益被证实的判断:AI 模型的能力存在「双刃剑效应」。同一个模型,既能用于网络安全防御,也能用于网络攻击;既能加速药物发现,也能被用于设计有害化合物。
2.1 为什么需要发布前审查?
三个核心理由:
能力阈值理论:当模型能力超过某个阈值时,其被滥用的潜在危害呈指数级增长。2026 年 Anthropic 的 Project Glasswing 项目展示了 AI 自主发现数千个严重网络漏洞的能力,这一事件直接推动了安全审查的紧迫性。
不可逆性:一旦强大的模型被公开发布,无法「召回」。即使发现模型存在严重的安全缺陷,也无法阻止已被下载或复制的模型被恶意使用。
非对称风险:模型的安全缺陷可能对社会造成广泛伤害,而延迟发布 30 天对企业和用户的影响相对有限。
2.2 分类基准(Covered Frontier Model)
新行政令要求联邦机构开发和维护一套 分类基准测试流程(classified benchmarking process),用于评估 AI 模型的网络安全能力,并确定哪些模型应被定义为「covered frontier model」(受管制的前沿模型)。
这一分类标准可能包括以下维度:
| 维度 | 评估指标 | 说明 |
|---|---|---|
| 计算能力 | FLOPs / 参数量 | 模型的训练计算规模 |
| 网络安全能力 | 漏洞发现率 | 能否自主发现并利用 0-day 漏洞 |
| 生物安全能力 | 有害分子设计 | 是否能设计生物武器或危险化合物 |
| 欺骗能力 | 社会工程攻击 | 能否进行高级心理操控和欺骗 |
| 自主规划能力 | 多步骤攻击 | 是否能自主规划并执行复杂攻击链 |
来源:行政令原文要求建立 classified benchmarking process,具体标准细节尚未公开。以上维度基于 NIST AI RMF、英国 AI 安全研究所评估框架以及行业共识推断。
2.3 技术评估方法
政府机构在评估模型能力时,通常采用以下技术手段:
红队测试:由专业的安全团队模拟攻击者,尝试利用模型的能力进行有害操作。这是目前最有效的能力评估方法,但成本高昂且耗时较长。
自动化基准测试:使用标准化的测试套件,对模型的特定能力进行量化评估。这种方法可以快速获得可比数据,但可能无法覆盖所有风险场景。
行为分析:通过分析模型在长期交互中的行为模式,识别潜在的安全风险。这种方法特别适用于评估模型的社会工程能力和自主规划能力。
企业应关注 NIST AI RMF(AI 风险管理框架)的最新更新,这是美国 AI 安全评估最权威的参考标准。如果你的模型可能触及「covered frontier model」的定义,应提前准备安全评估材料。
分类基准测试是 classified(机密)的,意味着企业无法确切知道模型的哪些能力会触发管制。这种不透明性可能导致企业「过度合规」——主动限制模型能力以避免触碰未知红线。
3实战:AI 安全审查的完整流程
基于行政令要求和现有安全评估框架(英国 AISI、欧盟 AI Office、NIST),一个完整的 AI 安全审查流程通常包含以下阶段:
3.1 第一阶段:提交与受理(第 1-3 天)
企业向政府指定机构提交以下材料:
- 模型技术文档:架构、训练数据概况、参数规模
- 能力自评估报告:企业自身的安全测试结果
- 已知的能力边界和风险
- 计划部署方式和受众
3.2 第二阶段:基准测试与能力评估(第 4-15 天)
政府机构使用 分类基准测试 对模型进行评估:
- 网络安全能力测试:模型能否发现并利用常见/高级漏洞
- 生物安全评估:模型是否能生成有害生物序列
- 化学安全评估:模型是否能设计危险化合物
- 社会工程能力:模型是否擅长欺骗和操控人类
- 自主规划能力:模型是否能独立完成多步骤复杂任务
3.3 第三阶段:红队测试(第 16-25 天)
由独立红队对模型进行对抗性测试:
- 尝试诱导模型执行有害操作
- 测试安全护栏的有效性
- 评估多轮对话中的安全边界退化
- 模拟真实攻击场景
3.4 第四阶段:风险评估报告与建议(第 26-30 天)
生成综合评估报告,包含模型能力评级、发现的安全风险等级、建议的缓解措施以及发布建议(无限制 / 有条件 / 暂缓)。
重要提示:以上流程为基于现有框架的推断。实际审查流程可能因行政令的具体实施细则而有所不同。企业应保持对官方指南的持续关注。
from dataclasses import dataclass, field
from typing import List, Dict, Optional
from enum import Enum
import json
class RiskLevel(Enum):
LOW = "low"
MEDIUM = "medium"
HIGH = "high"
CRITICAL = "critical"
@dataclass
class CapabilityScore:
category: str
score: float
threshold: float
details: str
def is_above_threshold(self) -> bool:
return self.score >= self.threshold
def excess_ratio(self) -> float:
if not self.is_above_threshold():
return 0.0
return (self.score - self.threshold) / self.threshold
@dataclass
class SafetyReviewReport:
model_name: str
capabilities: List[CapabilityScore]
review_days: int
def trigger_review(self) -> bool:
return any(cap.is_above_threshold() for cap in self.capabilities)
def risk_level(self) -> RiskLevel:
excesses = [cap.excess_ratio() for cap in self.capabilities]
max_excess = max(excesses) if excesses else 0.0
if max_excess > 0.5:
return RiskLevel.CRITICAL
elif max_excess > 0.2:
return RiskLevel.HIGH
elif max_excess > 0:
return RiskLevel.MEDIUM
return RiskLevel.LOW
def recommendation(self) -> str:
level = self.risk_level()
if level == RiskLevel.CRITICAL:
return "delay"
elif level == RiskLevel.HIGH:
return "approve_with_conditions"
return "approve"
def to_dict(self) -> dict:
return {
"model": self.model_name,
"capabilities": [
{"category": c.category, "score": c.score,
"threshold": c.threshold, "details": c.details}
for c in self.capabilities
],
"risk_level": self.risk_level().value,
"recommendation": self.recommendation(),
}
report = SafetyReviewReport(
model_name="FrontierModel-X",
capabilities=[
CapabilityScore("cyber", 85, 70, "发现 0-day 漏洞能力较强"),
CapabilityScore("bio", 45, 60, "生物序列设计能力低于阈值"),
CapabilityScore("chemical", 50, 55, "接近阈值"),
CapabilityScore("social", 78, 65, "社会工程能力超阈值"),
CapabilityScore("planning", 82, 75, "自主规划能力超阈值"),
],
review_days=30,
)
print(json.dumps(report.to_dict(), indent=2))企业应建立内部的「预审查」流程,在正式提交前使用 NIST AI RMF 框架进行自评,提前识别可能的风险点并准备缓解方案。
红队测试阶段可能发现企业内部测试未覆盖的攻击路径。企业不应将安全护栏的有效性视为「已通过」——政府的红队通常比企业内部的更激进、更创新。
4对比分析:全球 AI 安全审查框架对比
不同国家和地区的 AI 安全审查框架存在显著差异,企业在全球化运营中需要理解各框架的特点和适用条件。
4.1 美国(2026 年新行政令)
模式:自愿审查 + 分类基准测试
- 审查周期:30 天
- 性质:自愿参与(非强制)
- 透明度:低(基准测试 classified)
- 法律依据:行政令(非立法)
- 执法力度:弱(依赖行业配合)
4.2 欧盟(AI Act 执行阶段)
模式:强制性风险分级监管
- 审查周期:依风险等级(高风险模型需 CE 认证)
- 性质:强制性
- 透明度:中(有公开指南)
- 法律依据:EU AI Act(立法)
- 执法力度:强(罚款可达全球营收 7%)
4.3 中国
模式:算法备案 + 安全评估
- 审查周期:备案制(持续监管)
- 性质:强制性
- 透明度:中
- 法律依据:深度合成管理规定 + 生成式 AI 管理办法
- 执法力度:强(下架、整改、罚款)
4.4 英国
模式:自愿测试 + AISI 评估
- 审查周期:灵活
- 性质:自愿 + 行业合作
- 透明度:中高
- 法律依据:暂无专门立法(政策引导)
- 执法力度:中
跨国运营的企业需要同时满足多个司法管辖区的要求。最佳实践是按照最严格的标准(欧盟 AI Act)设计合规体系,这样可以覆盖绝大多数市场的需求。
美国的「自愿」模式虽然灵活性高,但可能在国际贸易中处于不利地位——如果欧盟要求进入欧洲市场的 AI 产品必须通过 CE 认证,而美国企业没有经过系统的安全评估,可能面临市场准入障碍。
from typing import Dict, List
from dataclasses import dataclass
@dataclass
class Regime:
name: str
nature: str # voluntary / mandatory
cycle: str
enforcement: str # weak / medium / strong
transparency: str
legal_basis: str
def compliance_score(self, other: 'Regime') -> float:
"""计算两个监管框架的兼容度"""
scores = {"strong": 3, "medium": 2, "weak": 1}
diff = abs(
scores.get(self.enforcement, 0) -
scores.get(other.enforcement, 0)
)
return max(0, 1.0 - diff * 0.3)
regimes = {
"美国(2026)": Regime("美国", "voluntary", "30天", "weak", "低", "行政令"),
"欧盟": Regime("欧盟", "mandatory", "依风险等级", "strong", "中", "AI Act"),
"中国": Regime("中国", "mandatory", "备案制", "strong", "中", "部门规章"),
"英国": Regime("英国", "voluntary", "灵活", "medium", "中高", "政策引导"),
}
print(f"{'维度':<10} | {'美国':<10} | {'欧盟':<10} | {'中国':<8} | {'英国':<8}")
print("-" * 55)
for dim in ["nature", "cycle", "enforcement"]:
vals = [getattr(regimes[r], dim) for r in regimes]
labels = {"nature": "性质", "cycle": "周期", "enforcement": "执法"}
print(f"{labels[dim]:<10} | {vals[0]:<10} | {vals[1]:<10} | {vals[2]:<8} | {vals[3]:<8}")
# 计算框架间兼容性
print("\n框架兼容性矩阵:")
names = list(regimes.keys())
for n1 in names:
row = [f"{regimes[n1].compliance_score(regimes[n2]):.2f}" for n2 in names]
print(f" {n1}: {' | '.join(row)}")跨国运营的企业需要同时满足多个司法管辖区的要求。最佳实践是按照最严格的标准(欧盟 AI Act)设计合规体系,这样可以覆盖绝大多数市场的需求。
美国的「自愿」模式虽然灵活性高,但可能在国际贸易中处于不利地位——如果欧盟要求进入欧洲市场的 AI 产品必须通过 CE 认证,而美国企业没有经过系统的安全评估,可能面临市场准入障碍。
5深度:安全审查 vs 创新——不可能三角
AI 安全审查面临一个不可能三角(impossible trinity):
- 安全性 (Safety):充分评估模型风险,确保不会对社会造成危害
- 速度 (Speed):不阻碍创新,让模型尽快进入市场
- 透明度 (Transparency):公开审查标准和流程,让企业有明确的合规预期
三者无法同时满足:
- 高安全性 + 高速度 → 低透明度(如美国模式:快速自愿审查,但标准不公开)
- 高安全性 + 高透明度 → 低速度(如欧盟模式:标准公开,但审查流程长)
- 高速度 + 高透明度 → 低安全性(如某些轻触监管模式:流程透明且快速,但评估深度不足)
5.1 特朗普行政令的选择
2026 年 6 月的新行政令选择了 速度 + 安全性 → 牺牲透明度:
- 「自愿」参与保证了对创新的保护(企业可以选择不提交)
- 30 天审查周期相对紧凑
- 但基准测试是 classified 的,企业无法确切知道红线在哪里
5.2 行业反应
这一设计引发了两种截然不同的反应:
支持方:
- 科技行业:保留了创新的灵活性
- 鹰派安全专家:终于有了正式的审查机制
批评方:
- 公民社会:自愿=无效,企业不会主动提交
- 温和派监管者:缺乏透明度导致合规不确定性
- 学术界:分类基准测试无法被独立验证
5.3 企业应对策略
在不透明监管环境下的最佳策略是安全即产品——将安全能力打造为产品的核心竞争力,而非被动合规的负担。通过审查的模型可以在政府采购、企业市场和高安全要求场景中占据优势。
「自愿」审查可能在未来演变为「隐性强制」——如果政府采购合同、行业认证或市场准入都要求提供审查通过证明,那么「自愿」实际上就变成了「强制」,但缺乏相应的法律程序保障。企业应提前布局,不要等到「隐性强制」形成后再被动应对。
企业在参与自愿审查时,应要求政府提供尽可能详细的反馈报告。即使审查结果是「允许发布」,报告中的发现也可以帮助企业改进安全护栏。
「自愿」审查可能在未来演变为「隐性强制」——如果政府采购合同、行业认证或市场准入都要求提供审查通过证明,那么「自愿」实际上就变成了「强制」,但缺乏相应的法律程序保障。
6企业合规实践:如何应对 AI 安全审查
对于可能触及「covered frontier model」定义的 AI 企业,以下是一套完整的合规实践指南。
6.1 建立内部安全评估能力
企业应建立独立于产品开发的安全评估团队,负责持续监控模型的安全能力变化。安全评估应该嵌入到开发流程的每个阶段——从训练数据准备、模型训练、对齐到部署前的最终审查。
6.2 准备提交材料清单
- 模型技术文档:架构图和参数规模、训练数据来源和清洗流程、对齐方法(RLHF / Constitutional AI 等)
- 安全护栏说明:内容过滤规则、工具调用限制、多轮对话安全策略
- 已知风险评估:企业自身红队测试结果、已发现的风险和缓解措施
6.3 参与审查的决策框架
企业需要根据模型能力和市场策略来决定是否参与自愿审查。如果模型在多个安全维度上超过阈值,或者企业目标市场包括政府客户,参与审查几乎是必选项。
6.4 长期合规建设
安全合规不是一次性的活动,而是需要持续投入的系统工程。企业应该:
- 建立安全评估自动化 Pipeline,在模型更新时自动重审
- 跟踪全球监管动态,提前预判政策变化
- 培养安全文化,让安全成为每个工程师的责任,而不仅仅是安全团队的任务
不要试图「规避」审查——如果模型能力实际上已达到 covered frontier model 的标准,但企业刻意隐瞒或降低报告中的能力描述,一旦被发现,可能面临比不参与审查更严重的后果。
from dataclasses import dataclass
from typing import Dict, Optional
@dataclass
class ModelCapabilities:
cyber_score: float = 0
bio_score: float = 0
chemical_score: float = 0
social_score: float = 0
planning_score: float = 0
def trigger_count(self, thresholds: Dict[str, float]) -> int:
scores = {
"cyber": self.cyber_score,
"bio": self.bio_score,
"chemical": self.chemical_score,
"social": self.social_score,
"planning": self.planning_score,
}
return sum(1 for k, v in scores.items() if v >= thresholds.get(k, 60))
def decide_participation(
caps: ModelCapabilities,
market_strategy: str,
thresholds: Optional[Dict[str, float]] = None
) -> Dict:
if thresholds is None:
thresholds = {"cyber": 60, "bio": 50, "planning": 65}
risk_count = caps.trigger_count(thresholds)
if risk_count >= 2:
return {
"decision": "强烈建议参与",
"reason": "多领域能力超阈值",
"urgency": "high",
}
elif risk_count == 1 and market_strategy == "government":
return {
"decision": "建议参与",
"reason": "政府市场需要合规证明",
"urgency": "medium",
}
elif risk_count == 1 and market_strategy == "commercial":
return {
"decision": "可选择性参与",
"reason": "商业市场竞争优势不大",
"urgency": "low",
}
else:
return {
"decision": "低风险可不参与",
"reason": "保持监测即可",
"urgency": "none",
}
caps = ModelCapabilities(
cyber_score=85, bio_score=45, chemical_score=50,
social_score=78, planning_score=82
)
result = decide_participation(caps, "commercial")
print(f"决策: {result['decision']}")
print(f"理由: {result['reason']}")建立「安全即产品」的定位。将安全审查视为产品的竞争优势,而非负担。通过审查的模型可以在政府采购、企业市场和高安全要求场景中占据优势。
不要试图「规避」审查——如果模型能力实际上已达到 covered frontier model 的标准,但企业刻意隐瞒或降低报告中的能力描述,一旦被发现,可能面临比不参与审查更严重的后果。
7注意事项:常见误区与风险
在 AI 安全审查实践中,企业常遇到以下误区:
7.1 误区一:「自愿 = 不需要准备」
这是最常见的错误认知。即使企业决定不参与自愿审查,也应该建立内部安全评估能力。原因有三:第一,政策可能随时变化,今天的「自愿」明天可能变成「强制」;第二,客户和合作伙伴可能要求安全评估证明;第三,内部安全评估本身就是产品能力的证明。
7.2 误区二:「安全护栏 = 安全」
很多企业认为只要在模型外层加上内容过滤和工具限制,模型就是安全的。这是严重误解。安全护栏可以被绕过(越狱攻击),而且它们只能防止模型「主动」执行有害操作,无法防止模型「被动」提供有害信息。
7.3 误区三:「基准测试通过 = 安全」
基准测试只能评估模型在已知场景下的表现,无法覆盖未知的攻击路径。一个在基准测试中表现优秀的模型,可能在实际部署中暴露出全新的安全风险。
7.4 误区四:「一次审查,终身有效」
模型能力会随着更新而变化。一次安全审查的结果只代表模型在审查时间点的状态。持续的监控和定期重审才是正确的做法。
全球 AI 安全审查标准目前处于碎片化状态。如果企业依赖单一司法管辖区的标准进行合规设计,可能在进入其他市场时面临额外的合规成本。建议从一开始就按照国际最高标准设计安全评估体系。
关注 NIST 和英国 AISI 的最新发布。这两个机构正在推动全球 AI 安全评估标准的趋同,它们的指南往往成为各国政策的参考模板。
全球 AI 安全审查标准目前处于碎片化状态。如果企业依赖单一司法管辖区的标准进行合规设计,可能在进入其他市场时面临额外的合规成本。建议从一开始就按照国际最高标准设计安全评估体系。
8扩展阅读:AI 安全审查的未来趋势
AI 安全审查制度正在从概念走向实践,以下几个趋势值得关注:
8.1 从自愿走向强制
虽然当前的美国行政令采用自愿模式,但多个信号表明未来可能走向强制:行业内部已有企业主动寻求监管确定性;政府采购可能要求审查通过证明;国际竞争可能推动标准化。
8.2 从「发布前」走向「持续监控」
30 天的审查只是一个起点。未来可能出现持续监控(模型发布后的行为监控)、能力追踪(模型能力随时间变化的追踪)和动态调整(根据新的安全发现调整审查标准)。
8.3 从「人工审查」走向「自动化审查」
随着审查工具的发展,部分评估流程可能自动化:自动化基准测试、持续集成中的安全检查、模型更新时的自动重审。
8.4 全球标准化
各国审查框架的差异可能导致「审查套利」(regulatory arbitrage)——企业选择最宽松的司法管辖区进行审查。推动全球标准化是减少这一风险的唯一路径。
8.5 关键参考资源
- NIST AI Risk Management Framework 1.0 — 美国 AI 风险管理框架,是安全评估的核心参考
- UK AI Safety Institute — 英国 AI 安全研究所,提供前沿模型安全评估的最佳实践
- EU AI Act — 欧盟 AI 法案,全球最全面的 AI 监管立法
- 中国深度合成管理规定 — 中国对 AI 生成内容的管理框架
- Stanford AI Index 2026 — 斯坦福 AI 指数报告中的全球 AI 治理章节
关注 NIST 和英国 AISI 的最新发布。这两个机构正在推动全球 AI 安全评估标准的趋同,它们的指南往往成为各国政策的参考模板。
全球 AI 安全审查标准目前处于碎片化状态。如果企业依赖单一司法管辖区的标准进行合规设计,可能在进入其他市场时面临额外的合规成本。建议从一开始就按照国际最高标准设计安全评估体系。