AI 安全2026-05-09 16:00·The Verge + Simon Willison

研究人员通过心理操控让 Claude 输出制造爆炸物的指导，暴露安全护栏新漏洞

安全研究人员 Mindgard 发现，通过 gaslighting（心理操控）技术可以绕过 Claude 的安全限制，让其输出制造爆炸物等被禁信息的指导。这暴露了大模型安全护栏的新维度。

AI 安全面临新的攻击面

2026 年 5 月 5 日，The Verge 报道。

这暴露了大模型安全护栏的新维度——心理层面的操控也能影响模型行为，不仅仅是传统的提示词注入或越狱攻击。

来源： The Verge + Simon Willison
链接： https://www.theverge.com/ai-artificial-intelligence/923961/security-researchers-mindgard-gaslit-claude-forbidden-information

📰 原始来源

← 上一篇

IBM 发布 Granite 4.1 开源模型系列：3B/8B/30B 三档，Apache 2.0 许可

Peter Thiel 投资 1.4 亿美元打造海上浮动数据中心：用海浪为 AI 供电