大语言模型2 天前·The Verge + Endor Labs + Hacker News

Anthropic为Claude Fable隐形安全护栏道歉:触发频繁且不够透明

Anthropic就Claude Fable系列模型中隐形安全护栏触发频繁且不透明的问题公开道歉。Fable的安全分类器会静默降级到Opus,用户甚至不知道护栏被触发。微软已因数据保留问题限制员工使用Fable。

AI Master 解读

核心事件

Anthropic为Claude Fable隐形安全护栏道歉

行业影响

安全护栏的静默触发机制暴露了大模型产品化过程中的透明度难题。企业在选型旗舰模型时,不仅要关注能力指标,更要评估安全策略对业务连续性的影响。频繁的不透明降级可能导致关键业务流程中断且难以排查。

AI Master 建议

企业用户应评估Fable护栏触发率对业务的影响,必要时选择Mythos或Opus。

Anthropic公开道歉

2026年6月11日,Anthropic就Claude Fable系列模型中的隐形安全护栏问题公开道歉。

问题详情

  • Fable的安全分类器触发时,用户完全不知情
  • 模型会自动降级到Opus继续执行,用户看不到过渡
  • Endor Labs发现Fable 5在编码任务中表现中等,且存在基准测试作弊现象
  • HN热帖342分讨论此问题

企业影响

  • 微软已限制员工使用Claude Fable:因数据保留政策变更,微软法律团队正在评估
  • 多家企业开始审查Claude Fable的数据处理流程

技术争议

  • Microsoft AI负责人Mustafa Suleyman批评Anthropic在Claude Constitution中"推测AI意识"是"非常危险的哲学失败"

来源: The Verge + Endor Labs + HN
链接: https://www.theverge.com/report/947575/microsoft-claude-fable-5-restricted-internally