Agent2 天前·Berkeley RDI

Berkeley RDI发布CyberGym-E2E:AI Agent端到端网络安全基准,920个真实漏洞

Berkeley RDI发布CyberGym-E2E大规模网络安全基准,包含139个广泛使用的开源项目中的920个真实漏洞。每个任务要求Agent完成完整生命周期:发现漏洞、生成概念验证、编写修复补丁。最强Agent在已知漏洞条件下修复率达80%,但自主发现漏洞时成功率急剧下降。

AI Master 解读

核心事件

首个端到端AI网络安全基准发布,测试Agent从发现到修复的全流程。

行业影响

影响分析: 1)AI Agent在已知漏洞修复上表现优秀(80%),但自主发现能力仍不足;2)最新前沿模型正在快速缩小差距,端到端成功率已达60%;3)AI安全攻防进入新阶段。

AI Master 建议

AI安全审计和漏洞修复是Agent落地的高价值场景,但自主发现能力仍需提升。

CyberGym-E2E基准要点

项目 详情
发布方 Berkeley RDI
漏洞数量 920个真实漏洞
开源项目 139个广泛使用的项目
任务要求 发现漏洞+生成PoC+编写修复补丁
最强Agent修复率 已知漏洞条件80%
端到端发现+修复 最新前沿模型约60%