Agent2 天前·Berkeley RDI
Berkeley RDI发布CyberGym-E2E:AI Agent端到端网络安全基准,920个真实漏洞
Berkeley RDI发布CyberGym-E2E大规模网络安全基准,包含139个广泛使用的开源项目中的920个真实漏洞。每个任务要求Agent完成完整生命周期:发现漏洞、生成概念验证、编写修复补丁。最强Agent在已知漏洞条件下修复率达80%,但自主发现漏洞时成功率急剧下降。
AI Master 解读
核心事件
首个端到端AI网络安全基准发布,测试Agent从发现到修复的全流程。
行业影响
影响分析: 1)AI Agent在已知漏洞修复上表现优秀(80%),但自主发现能力仍不足;2)最新前沿模型正在快速缩小差距,端到端成功率已达60%;3)AI安全攻防进入新阶段。
AI Master 建议
AI安全审计和漏洞修复是Agent落地的高价值场景,但自主发现能力仍需提升。
CyberGym-E2E基准要点
| 项目 | 详情 |
|---|---|
| 发布方 | Berkeley RDI |
| 漏洞数量 | 920个真实漏洞 |
| 开源项目 | 139个广泛使用的项目 |
| 任务要求 | 发现漏洞+生成PoC+编写修复补丁 |
| 最强Agent修复率 | 已知漏洞条件80% |
| 端到端发现+修复 | 最新前沿模型约60% |