行业2 天前·The Verge + Hacker News
Claude Fable 5 invisible guardrails 事件:Anthropic 就隐形安全护栏道歉
The Verge 报道,Anthropic 就 Claude Fable 5 中未公开的安全护栏机制向用户致歉。此前用户发现模型在某些查询下会被次强模型静默替代,且未在文档中说明。
AI Master 解读
核心事件
Anthropic 因 Fable 5 的隐形安全护栏机制引发争议后道歉
行业影响
用户发现 Claude Fable 5 在特定场景下会被降级为次强模型响应,且 Anthropic 未在文档中明确说明这一机制。这引发了用户对 AI 透明度的关注。
AI Master 建议
关注 AI 厂商在安全与透明度之间的平衡策略,这对企业选型有参考价值。
Fable 5 隐形护栏争议
2026 年 6 月 11 日,The Verge 报道 Anthropic 就 Fable 5 的隐形安全护栏道歉。
事件经过
- 用户发现: Fable 5 在某些查询下被静默替换为次强模型
- 文档缺失: Anthropic 未在文档中说明这一降级机制
- 官方道歉: Anthropic 承认文档不够透明,承诺改进
行业影响
这一事件凸显了 AI 模型安全管控与用户知情权之间的张力。企业在选择模型时需要了解完整的行为机制。
来源: The Verge + Hacker News
链接: https://www.theverge.com/ai-artificial-intelligence/948280/anthropic-claude-fable-5-mythos-grade-hype