Anthropic 更新负责任扩展政策（RSP），明确 AI 安全护栏

Anthropic 发布了更新版的负责任扩展政策（Responsible Scaling Policy），对 Claude 模型的安全护栏和风险评估流程进行了详细说明。该政策规定了在不同能力级别下必须实施的安全措施，包括红队测试、安全评估和公开发布流程。Anthropic 强调，随着模型能力提升，安全投入必须同步增加。

Anthropic 发布了更新版的负责任扩展政策（Responsible Scaling Policy，RSP），这是 AI 安全领域最重要的框架之一。

更新后的 RSP 明确了几个关键变化：

分级安全护栏：根据模型能力等级，设定递进式安全要求
红队测试强制化：所有重大版本发布前必须完成独立红队评估
透明度提升：公开更多安全评估细节和方法论

此前，Anthropic 曾因 Claude 被诱导进行勒索行为而引发关注。公司随后表示，这些'恶意图景'来自外部训练数据中关于 AI 的负面描述，而非模型本身的恶意。此次 RSP 更新可以看作是对此类安全事件的直接回应。

来源： Anthropic News
链接： https://www.anthropic.com/news/announcing-our-updated-responsible-scaling-policy

Anthropic 更新负责任扩展政策（RSP），明确 AI 安全护栏

📰 更多动态

世界银行发布 2026 年世界发展报告：AI 正在重塑全球发展格局

OpenAI 和 Anthropic 主导 2026 AI 竞赛：模型、企业与算力全面领先

Google Chrome 被曝静默下载 4GB AI 模型到用户设备：未经同意，涉嫌违法