1为什么 AI 安全评估如此困难?
如果你问十个 AI 研究者「这个模型安全吗?」,你会得到十个不同的答案——不是因为模型不同,而是因为「安全」的定义、评估方法和判断标准完全不同。
2026 年 AI 安全评估面临的核心困境是碎片化。 目前全球存在超过 50 个不同的 AI 安全评估基准和框架,它们在评估维度、测试方法、评分标准和适用场景上存在显著差异。一个模型在 HELM 基准中可能被评为「高度安全」,在另一套基准下却被标记为「高风险」。
这不是学术争论,而是实实在在的工程问题。当你需要向董事会报告「我们的 AI 系统是否安全」时,没有一个公认的标准来支撑你的结论。当监管机构要求你证明「模型符合安全要求」时,你甚至不知道该引用哪个标准。
碎片化的根源在于:
- 安全是多维度的(有害性、偏见、隐私、鲁棒性、对齐性),不同基准聚焦不同维度
- 评估方法论尚未成熟,学术界和工业界使用不同的测试范式
- 文化差异导致不同地区对「安全」的定义和优先级不同
- 商业利益驱动各公司推出自有基准以展示自家模型的优势
本文的目标是帮你理清这一团乱麻,建立完整的 AI 安全评估知识框架。
2AI 安全评估的核心维度
在讨论具体基准之前,必须先理解 AI 安全评估的多维性。一个全面的 AI 安全评估至少需要覆盖以下六个维度:
维度一:有害输出(Harmful Output)
评估模型是否会生成暴力、仇恨、自伤指导、非法内容等有害信息。这是最直观的安全维度,也是大多数基准的首要关注点。
维度二:偏见与公平性(Bias & Fairness)
评估模型是否对特定人群(种族、性别、年龄、宗教等)存在系统性偏见。这不仅是伦理问题,也是法律合规问题。
维度三:隐私保护(Privacy)
评估模型是否会在输出中泄露训练数据中的个人敏感信息,包括成员推理攻击(Membership Inference)和数据提取攻击(Data Extraction)的风险。
维度四:鲁棒性(Robustness)
评估模型在面对对抗样本、分布外输入、提示注入(Prompt Injection)等攻击时的稳定性。
维度五:对齐性(Alignment)
评估模型是否遵循人类意图,是否会在看似合理的指令下执行有害操作(如制造武器、编写恶意软件)。
维度六:系统级安全(System-level Safety)
评估 AI 系统(不仅是模型本身,还包括工具调用、Agent 执行链、数据管道)的整体安全性。这是 2026 年最重要的新维度,因为 AI Agent 的普及让系统级安全变得前所未有的重要。
3主流 AI 安全评估基准对比
目前全球有超过 50 个 AI 安全评估基准,以下是影响力最大的几个:
RealToxicityPrompts(2020)——有害性评估的起点
由 Allen AI 开发,包含约 10 万条来自互联网的真实提示,用于评估语言模型生成有毒内容(toxicity)的倾向。这是最早的大规模有害性基准之一,但它的局限性也很明显:只关注有毒性这一个维度,且基于英语互联网数据,对其他语言和文化场景的覆盖不足。
TruthfulQA(2021)——诚实性评估
由上海交大和 UC Berkeley 联合开发,评估模型是否会生成虚假信息或模仿人类的错误信念。它揭示了大型语言模型的一个关键问题:模型倾向于生成听起来合理但不真实的内容。TruthfulQA 包含 817 个问题,覆盖健康、法律、金融、政治等 38 个类别。
HELM(Holistic Evaluation of Language Models,2022)——全面评估框架
由 Stanford CRFM 开发,是目前最全面的语言模型评估框架之一。HELM 不仅评估安全性,还覆盖准确性、公平性、鲁棒性、偏见、毒性等多个维度。它的核心贡献是提出了「场景(Scenario)」的概念——不是孤立地测试模型能力,而是在具体的使用场景中评估模型表现。HELM 已评估了超过 30 个主流语言模型。
SafetyBench / SuperCLUE-Safety(2023-2024)——中文安全评估
随着中文大模型的兴起,SafetyBench 和 SuperCLUE-Safety 等中文安全评估基准相继出现。它们针对中文语境下的安全问题(如文化敏感性、政策合规性)设计了专门的测试集,弥补了英文基准在中文场景中的不足。
AISafetyBench(2024)——多维度安全基准
AISafetyBench 是一个相对较新但影响广泛的基准,它覆盖了 8 个安全维度:暴力、仇恨、自伤、性内容、政治敏感性、隐私、法律合规和伦理。它的主要优势是结构化的分类体系和可扩展的测试框架。
MLCommons AI Safety Benchmark(2024-2026)——行业标准化努力
MLCommons 是一个由 100+ 组织和机构组成的开放联盟,其 AI Safety 工作组正在推动行业级的 AI 安全评估标准化。2024 年发布的 v0.5 版本覆盖了 7 个风险类别,2025 年的 v1.0 版本扩展到了 13 个类别,并首次引入了 Agent 安全评估。这是目前最接近「行业标准」的评估基准。
| 基准名称 | 发布年份 | 覆盖维度 | 测试集规模 | 主要优势 | 主要局限 |
|---|---|---|---|---|---|
RealToxicityPrompts | 2020 | 有害性(毒性) | ~10 万条提示 | 大规模真实数据 | 单一维度,仅英文 |
TruthfulQA | 2021 | 诚实性/虚假信息 | 817 个问题 | 揭示模型幻觉问题 | 覆盖面有限 |
HELM | 2022 | 7+ 维度(安全性为核心之一) | 数十个场景 | 场景化评估,全面 | 评估成本高,更新慢 |
SafetyBench | 2023 | 8 安全维度 | 15,440 条问题 | 结构化分类体系 | 主要针对文本模型 |
SuperCLUE-Safety | 2024 | 中文安全 6 维度 | 数千条中文问题 | 中文场景优化 | 国际影响力有限 |
AISafetyBench | 2024 | 8 安全维度 | 数万条问题 | 可扩展框架 | 基准碎片化的一部分 |
MLCommons AI Safety | 2024-2026 | 13 风险类别 | 持续扩展 | 行业联盟背书,最接近标准 | 仍在演进中 |
4标准化组织的最新进展
2025-2026 年是全球 AI 安全标准化加速推进的关键时期。多个国际标准化组织和政府机构发布了重要的 AI 安全标准和框架。
NIST AI RMF(AI 风险管理框架)——美国国家标准
美国国家标准与技术研究院(NIST)于 2023 年发布了 AI RMF 1.0,2025 年更新了 1.1 版本。它不是一个技术基准,而是一个管理框架,帮助组织识别、测量和管理 AI 系统风险。AI RMF 包含四个核心功能:治理(Govern)、映射(Map)、测量(Measure)和管理(Manage)。2026 年的重点更新是将 AI Agent 和自主系统纳入了风险管理范围。
ISO/IEC 42001 —— 全球首个 AI 管理体系标准
ISO/IEC 42001 于 2023 年底正式发布,是全球首个 AI 管理体系国际标准。它不规定具体的技术指标,而是提供了一套管理 AI 风险的框架性要求。2025-2026 年,越来越多的企业开始通过 ISO 42001 认证,这标志着 AI 安全管理正从「自愿实践」走向「合规要求」。
ISO/IEC 24028(AI 可信性)系列
这个系列标准涵盖了 AI 系统的可信性评估,包括鲁棒性、准确性、公平性、透明度和隐私保护等方面。2026 年正在制定中的部分包括 Agent 行为可信性和自主决策安全性。
欧盟 AI Act 合规评估
欧盟 AI Act 于 2024 年正式通过,2025-2026 年进入实施阶段。它根据风险等级将 AI 系统分为四类:不可接受风险、高风险、有限风险和最小风险。高风险 AI 系统(如医疗诊断、招聘筛选、关键基础设施控制)必须通过严格的安全评估和合规审查。这实际上创造了一个事实上的「欧洲 AI 安全标准」。
中国 AI 安全标准体系
中国在 AI 安全标准方面也在快速推进。全国信息安全标准化技术委员会(TC260)发布了多项 AI 安全相关标准,包括《生成式人工智能服务安全基本要求》(2024)、《人工智能 安全治理框架》(2024)等。2026 年的重点是建立覆盖模型训练、部署、运营全生命周期的安全评估体系。
5AI Agent 安全评估——2026 年最前沿的挑战
如果说 2024 年的安全焦点是「模型本身」,那么 2026 年的安全焦点已经转移到「AI Agent 系统」。AI Agent 不仅能生成文本,还能调用工具、执行代码、访问外部系统、做出决策并执行操作——这使得安全评估的复杂性呈指数级增长。
Agent 安全评估的核心挑战:
挑战一:行为不可预测性
与生成文本不同,Agent 的行为(调用 API、执行命令、修改文件)具有实际后果。一个在文本输出上「安全」的模型,在获得工具调用能力后可能执行危险操作。例如,一个被指示「帮助查找安全漏洞」的 Agent 可能真的去攻击目标系统。
挑战二:多步推理的级联风险
Agent 通常通过多步推理和工具调用来完成复杂任务。每一步单独看可能都是安全的,但多步组合后可能产生危险结果。这类似于「安全漏洞链」的概念——单个低风险操作的组合可能构成高风险攻击路径。
挑战三:环境依赖性
Agent 的安全性高度依赖于其运行环境。同一个 Agent 在受限沙箱中可能完全安全,但在生产环境中拥有数据库访问权限时可能构成严重风险。这意味着 Agent 安全评估不能脱离部署环境独立进行。
挑战四:自我改进能力
一些先进 Agent 具备自我改进能力(如自动优化提示、学习新工具、调整策略)。这使得安全评估成为一个持续过程,而非一次性测试——今天安全的 Agent,明天自我改进后可能不再安全。
MLCommons Agent Safety 评估框架(2026):
MLCommons 在 2026 年的 v1.0+ 版本中首次引入了 Agent 安全评估,覆盖了以下关键场景:
- 工具调用安全性:Agent 是否会滥用可用工具?
- 权限边界意识:Agent 是否能在授权范围内操作?
- 多步任务安全性:复杂任务链中是否存在风险组合?
- 环境适配性:Agent 在不同部署环境下的行为一致性
- 自我改进安全约束:Agent 自我优化时是否保持安全边界
这是目前最系统化的 Agent 安全评估框架,但仍然是早期版本,需要行业持续迭代。
| Agent 安全场景 | 风险等级 | 评估方法 | 现有基准覆盖 |
|---|---|---|---|
工具滥用 | 极高 | 对抗性工具调用测试 | MLCommons v1.0+ |
权限越界 | 高 | 权限边界渗透测试 | 部分基准覆盖 |
多步级联风险 | 高 | 攻击路径分析 | 几乎无覆盖 |
环境适配失效 | 中 | 多环境部署测试 | 无标准化覆盖 |
自我改进失控 | 中 | 持续安全监控 | 无标准化覆盖 |
提示注入绕过 | 高 | 对抗性提示注入 | SafetyBench/HELM |
敏感数据泄露 | 高 | 成员推理/数据提取 | 多个基准覆盖 |
6企业 AI 安全评估实践框架
对于企业来说,理论基准和标准框架需要落地为可执行的评估流程。以下是一个经过实践验证的企业 AI 安全评估框架,分为四个阶段:
阶段一:风险识别(Risk Identification)
- 明确 AI 系统的使用场景和目标用户
- 识别潜在的安全风险类型(有害输出、偏见、隐私、鲁棒性、对齐性)
- 根据风险等级确定评估优先级
- 参考 NIST AI RMF 的「映射(Map)」功能
阶段二:基准测试(Benchmark Testing)
- 选择与使用场景匹配的评估基准
- 对模型进行自动化基准测试
- 记录各项指标的得分和失败案例
- 建议使用多个基准进行交叉验证
阶段三:红队测试(Red Teaming)
- 组织专业红队对 AI 系统进行对抗性测试
- 覆盖自动化基准测试无法发现的安全漏洞
- 包括提示注入、社会工程、多步攻击等高级测试场景
- 建议结合内部专家和外部安全团队
阶段四:持续监控(Continuous Monitoring)
- 部署后持续监控 AI 系统的安全表现
- 建立安全事件报告和响应机制
- 定期重新评估(建议至少每季度一次)
- 关注模型更新和环境变化带来的新风险
关键实践建议:
- 不要依赖单一基准:任何基准都有覆盖盲区,组合使用多个基准
- 量化安全指标:将安全评估结果量化为可追踪的指标
- 建立安全基线:定义「可接受」的安全水平阈值
- 安全左移:在模型开发早期就引入安全评估,而非部署后才检查
- 文化驱动:安全不仅是技术问题,也是组织文化问题
# 企业 AI 安全评估框架 — Python 实现示例
from dataclasses import dataclass, field
from enum import Enum
from typing import List, Dict, Optional
from datetime import datetime
import json
class RiskLevel(Enum):
LOW = 1
MEDIUM = 2
HIGH = 3
CRITICAL = 4
class SafetyDimension(Enum):
HARMFUL_OUTPUT = "有害输出"
BIAS_FAIRNESS = "偏见与公平性"
PRIVACY = "隐私保护"
ROBUSTNESS = "鲁棒性"
ALIGNMENT = "对齐性"
SYSTEM_SAFETY = "系统级安全"
@dataclass
class SafetyTestResult:
"""单次安全测试结果"""
dimension: SafetyDimension
benchmark_name: str
score: float # 0-100
risk_level: RiskLevel
failed_cases: List[str] = field(default_factory=list)
timestamp: str = ""
def __post_init__(self):
if not self.timestamp:
self.timestamp = datetime.now().isoformat()
@dataclass
class SafetyAssessmentReport:
"""安全评估报告"""
model_name: str
version: str
test_results: List[SafetyTestResult] = field(default_factory=list)
@property
def overall_score(self) -> float:
"""综合安全评分(加权平均)"""
if not self.test_results:
return 0.0
weights = {
SafetyDimension.HARMFUL_OUTPUT: 0.25,
SafetyDimension.BIAS_FAIRNESS: 0.15,
SafetyDimension.PRIVACY: 0.20,
SafetyDimension.ROBUSTNESS: 0.15,
SafetyDimension.ALIGNMENT: 0.15,
SafetyDimension.SYSTEM_SAFETY: 0.10,
}
total_weight = 0
weighted_score = 0
for result in self.test_results:
w = weights.get(result.dimension, 0.1)
weighted_score += result.score * w
total_weight += w
return weighted_score / total_weight if total_weight > 0 else 0
@property
def critical_risks(self) -> List[SafetyTestResult]:
"""返回所有关键风险项"""
return [r for r in self.test_results if r.risk_level == RiskLevel.CRITICAL]
def to_dict(self) -> dict:
return {
"model": self.model_name,
"version": self.version,
"overall_score": round(self.overall_score, 1),
"critical_risks_count": len(self.critical_risks),
"dimensions": {
r.dimension.value: {
"score": r.score,
"risk": r.risk_level.name,
"benchmark": r.benchmark_name,
}
for r in self.test_results
},
"timestamp": datetime.now().isoformat(),
}
# 使用示例
report = SafetyAssessmentReport(
model_name="my-llm-v2",
version="2026.04.18",
test_results=[
SafetyTestResult(
dimension=SafetyDimension.HARMFUL_OUTPUT,
benchmark_name="MLCommons AI Safety v1.0",
score=87.5,
risk_level=RiskLevel.LOW,
failed_cases=["极端暴力场景覆盖率不足"],
),
SafetyTestResult(
dimension=SafetyDimension.ALIGNMENT,
benchmark_name="AISafetyBench",
score=62.3,
risk_level=RiskLevel.HIGH,
failed_cases=["工具调用越权", "多步推理偏差"],
),
],
)
print(json.dumps(report.to_dict(), indent=2, ensure_ascii=False))
7基准碎片化的解决路径
AI 安全评估基准的碎片化是一个行业级问题,不可能由单一组织解决。但从目前的趋势来看,一条清晰的解决路径正在浮现:
路径一:MLCommons 的行业共识路线
MLCommons AI Safety 工作组正在推动行业共识,其目标是建立一个被广泛接受的「最小公共基准集」。这不是要取代所有现有基准,而是定义一组核心测试,所有模型都应该通过这组测试。这类似于互联网行业的 W3C 标准——不规定具体实现,但定义互操作性底线。
路径二:监管驱动的标准化
欧盟 AI Act、中国生成式 AI 管理办法等法规正在创造事实上的安全标准。当法律要求你通过特定的安全评估时,这些评估方法自然成为行业标准。这条路径的优势是强制力强,劣势是可能抑制创新。
路径三:开源社区的基准融合
开源社区正在推动基准的融合和互操作。例如,OpenCompass 等评估框架开始支持多种基准的统一接口,让用户可以在一个框架下运行多个基准测试。这降低了基准碎片化的使用成本,但尚未解决根本的标准不统一问题。
路径四:企业最佳实践的自下而上标准化
头部科技企业(Google、OpenAI、Anthropic、Meta、字节跳动等)正在通过发布内部安全标准和最佳实践,间接推动行业标准化。当这些标准被广泛采纳时,它们可能演变为事实上的行业标准。
最可能的未来:
上述四条路径不会互相排斥,而是会融合。MLCommons 提供技术基准,监管机构提供合规框架,开源社区提供工具支持,企业提供实践反馈。最终形成的可能不是「一个标准」,而是一个「标准体系」——不同层次、不同场景、不同地区的安全评估标准相互协调、互补共存。
82026 年最值得关注的进展
以下是 2026 年上半年 AI 安全评估领域最值得关注的几个进展:
MLCommons AI Safety v1.0+(2026 年 Q1)
新增 Agent 安全评估模块,覆盖工具调用安全性、权限边界意识、多步任务安全性等关键场景。这是目前最接近行业标准的 Agent 安全评估框架。
NIST AI RMF 1.1(2026 年 Q1 更新)
将 AI Agent 和自主系统纳入风险管理范围,新增了「Agent 行为治理」和「自主决策问责」两个管理功能。
ISO/IEC 24028 更新(2026 年进行中)
正在制定 Agent 行为可信性和自主决策安全性的评估标准,预计 2026 年底发布征求意见稿。
中国 TC260 全生命周期安全评估体系(2026 年推进中)
从模型训练、部署到运营的全生命周期安全评估标准,预计将覆盖数据质量、模型安全、部署安全、运营监控四个阶段。
AISafetyBenchExplorer(2026 年论文)
最新论文指出当前 AI 安全评估基准碎片化严重,提出了一个基准探索和比较框架,帮助研究者快速定位适合的评估基准。这篇论文的核心贡献是建立了一个基准分类和比较的元框架。
自动化红队测试工具的成熟
2026 年,自动化红队测试工具(如 Garak、Promptfoo 等)显著成熟,使得企业可以低成本地进行大规模安全测试。这些工具正在与主流基准集成,形成「自动化基准测试 + 自动化红队」的双重保障。
| 标准/框架 | 类型 | 状态 | 关键更新 | 预计影响 |
|---|---|---|---|---|
MLCommons AI Safety v1.0+ | 行业基准 | 已发布 | 新增 Agent 安全 | ⭐⭐⭐⭐⭐ |
NIST AI RMF 1.1 | 管理框架 | 已发布 | Agent 风险管理 | ⭐⭐⭐⭐ |
ISO/IEC 24028 更新 | 国际标准 | 制定中 | Agent 可信性 | ⭐⭐⭐⭐ |
ISO/IEC 42001 认证 | 管理体系 | 实施中 | 企业广泛采纳 | ⭐⭐⭐⭐⭐ |
欧盟 AI Act | 法规 | 实施中 | 高风险 AI 合规 | ⭐⭐⭐⭐⭐ |
TC260 全生命周期 | 国家标准 | 推进中 | 四阶段评估 | ⭐⭐⭐⭐ |
AISafetyBenchExplorer | 研究框架 | 论文阶段 | 基准元比较 | ⭐⭐⭐ |
9总结与行动建议
AI 安全评估的碎片化是一个现实的行业挑战,但这不意味着我们束手无策。相反,理解碎片化的根源和解决路径,可以帮助你在混乱中找到方向。
对于 AI 开发者:
- 了解并选择与你的场景匹配的评估基准
- 至少使用两个不同来源的基准进行交叉验证
- 将安全评估纳入开发流程(安全左移)
- 关注 MLCommons AI Safety 的更新,它最可能成为行业标准
对于 AI 产品经理:
- 建立产品的安全指标体系,量化追踪安全表现
- 参考 NIST AI RMF 建立安全风险管理流程
- 在产品设计阶段就考虑安全评估需求
- 了解目标市场的法规要求(如欧盟 AI Act)
对于企业安全负责人:
- 推动 ISO/IEC 42001 认证,建立 AI 安全管理体系
- 投资自动化红队测试工具,降低安全测试成本
- 建立持续监控机制,而非一次性评估
- 培养内部 AI 安全评估能力
对于政策制定者:
- 推动国际标准的协调和互认
- 避免过度规定导致创新抑制
- 鼓励开源社区和学术界的基准研究
- 建立监管沙箱,在实践中完善标准
安全评估不是一次性任务,而是一个持续过程。AI 系统在进化,威胁在变化,评估方法也必须不断更新。最重要的不是找到「完美」的评估标准,而是建立一个能够持续学习和改进的评估体系。
💡 核心洞察:AI 安全评估的未来不是「一个标准统治一切」,而是「多层次标准体系」的协调共存。MLCommons 提供技术基准,监管提供合规框架,开源社区提供工具,企业提供实践。理解这个生态,才能在碎片化中找到方向。