AI 安全今天·稀土掘金 + Anthropic

Anthropic 发布 Project Glasswing:首月即识别 1 万+高危漏洞,以 AI 防御 AI

Anthropic 发布 AI 安全防御计划 Project Glasswing 中期报告,基于 Claude Mythos Preview 模型,首月即与 50+ 家合作企业协作,识别出超过 1 万个高危和关键级别漏洞,开创了以 AI 防御 AI 安全的新范式。

Project Glasswing:以 AI 防御 AI

2026 年 5 月,Anthropic 发布 AI 安全防御计划中期报告。

项目要点

  • 核心思路:在更强能力的模型被恶意利用之前,主动发现并修复关键软件漏洞
  • 基础模型:Claude Mythos Preview
  • 首月成果:识别超过 1 万个高危和关键级别漏洞
  • 合作规模:50+ 家企业协作参与

战略意义

Anthropic 此前因拒绝向监管机构开放 Mythos 模型而受到批评。Project Glasswing 可看作是在「不开放模型」的前提下,主动承担安全责任的替代方案。

以 AI 模型自身的安全能力来保护生态,这一思路可能成为 AI 安全领域的新范式。

来源: 稀土掘金 + Anthropic
链接: https://juejin.cn/post/7643280009975513097