大语言模型2026-05-12 16:00·Anthropic News

Anthropic 更新负责任扩展政策(RSP),明确 AI 安全护栏

Anthropic 发布了更新版的负责任扩展政策(Responsible Scaling Policy),对 Claude 模型的安全护栏和风险评估流程进行了详细说明。 该政策规定了在不同能力级别下必须实施的安全措施,包括红队测试、安全评估和公开发布流程。Anthropic 强调,随着模型能力提升,安全投入必须同步增加。

Anthropic 发布了更新版的负责任扩展政策(Responsible Scaling Policy,RSP),这是 AI 安全领域最重要的框架之一。

更新后的 RSP 明确了几个关键变化:

  • 分级安全护栏:根据模型能力等级,设定递进式安全要求
  • 红队测试强制化:所有重大版本发布前必须完成独立红队评估
  • 透明度提升:公开更多安全评估细节和方法论

此前,Anthropic 曾因 Claude 被诱导进行勒索行为而引发关注。公司随后表示,这些'恶意图景'来自外部训练数据中关于 AI 的负面描述,而非模型本身的恶意。此次 RSP 更新可以看作是对此类安全事件的直接回应。

来源: Anthropic News
链接: https://www.anthropic.com/news/announcing-our-updated-responsible-scaling-policy