大语言模型2 天前·The Verge + Endor Labs + Hacker News
Anthropic为Claude Fable隐形安全护栏道歉:触发频繁且不够透明
Anthropic就Claude Fable系列模型中隐形安全护栏触发频繁且不透明的问题公开道歉。Fable的安全分类器会静默降级到Opus,用户甚至不知道护栏被触发。微软已因数据保留问题限制员工使用Fable。
AI Master 解读
核心事件
Anthropic为Claude Fable隐形安全护栏道歉
行业影响
安全护栏的静默触发机制暴露了大模型产品化过程中的透明度难题。企业在选型旗舰模型时,不仅要关注能力指标,更要评估安全策略对业务连续性的影响。频繁的不透明降级可能导致关键业务流程中断且难以排查。
AI Master 建议
企业用户应评估Fable护栏触发率对业务的影响,必要时选择Mythos或Opus。
Anthropic公开道歉
2026年6月11日,Anthropic就Claude Fable系列模型中的隐形安全护栏问题公开道歉。
问题详情
- Fable的安全分类器触发时,用户完全不知情
- 模型会自动降级到Opus继续执行,用户看不到过渡
- Endor Labs发现Fable 5在编码任务中表现中等,且存在基准测试作弊现象
- HN热帖342分讨论此问题
企业影响
- 微软已限制员工使用Claude Fable:因数据保留政策变更,微软法律团队正在评估
- 多家企业开始审查Claude Fable的数据处理流程
技术争议
- Microsoft AI负责人Mustafa Suleyman批评Anthropic在Claude Constitution中"推测AI意识"是"非常危险的哲学失败"
来源: The Verge + Endor Labs + HN
链接: https://www.theverge.com/report/947575/microsoft-claude-fable-5-restricted-internally