Project Glasswing:以 AI 防御 AI
2026 年 5 月,Anthropic 发布 AI 安全防御计划中期报告。
项目要点
- 核心思路:在更强能力的模型被恶意利用之前,主动发现并修复关键软件漏洞
- 基础模型:Claude Mythos Preview
- 首月成果:识别超过 1 万个高危和关键级别漏洞
- 合作规模:50+ 家企业协作参与
战略意义
Anthropic 此前因拒绝向监管机构开放 Mythos 模型而受到批评。Project Glasswing 可看作是在「不开放模型」的前提下,主动承担安全责任的替代方案。
以 AI 模型自身的安全能力来保护生态,这一思路可能成为 AI 安全领域的新范式。
来源: 稀土掘金 + Anthropic
链接: https://juejin.cn/post/7643280009975513097