大语言模型2 天前·The Verge + Endor Labs + Hacker News

Anthropic为Claude Fable隐形安全护栏道歉：触发频繁且不够透明

Anthropic就Claude Fable系列模型中隐形安全护栏触发频繁且不透明的问题公开道歉。Fable的安全分类器会静默降级到Opus，用户甚至不知道护栏被触发。微软已因数据保留问题限制员工使用Fable。

AI Master 解读

核心事件

Anthropic为Claude Fable隐形安全护栏道歉

行业影响

安全护栏的静默触发机制暴露了大模型产品化过程中的透明度难题。企业在选型旗舰模型时，不仅要关注能力指标，更要评估安全策略对业务连续性的影响。频繁的不透明降级可能导致关键业务流程中断且难以排查。

AI Master 建议

企业用户应评估Fable护栏触发率对业务的影响，必要时选择Mythos或Opus。

2026年6月11日，Anthropic就Claude Fable系列模型中的隐形安全护栏问题公开道歉。

Microsoft AI负责人Mustafa Suleyman批评Anthropic在Claude Constitution中"推测AI意识"是"非常危险的哲学失败"

来源: The Verge + Endor Labs + HN
链接: https://www.theverge.com/report/947575/microsoft-claude-fable-5-restricted-internally

📰 原始来源

← 上一篇

小米MiMo Code开源发布：440分登上Hacker News热榜首位

UT Austin研发能从空气中收集饮用水的智能夹克