← 首页/AI 资讯

Agent2026-05-07 00:00·36 氪 + 新智元

Anthropic 让 AI 先读员工手册再上岗：Agent 失控率从 54% 降到 7%

36 氪报道，Anthropic 最新研究发现，让 AI Agent 先理解规范背后的「意义」再接受行为示范，在特定实验中将失控率从 54% 大幅降至 7%。

AI Agent 的安全性有了新解法。

Anthropic 让 AI Agent 先阅读「员工手册」（行为规范），理解背后的原则
然后再接受具体的行为示范训练
在特定实验中，Agent 失控率从 54% 骤降到 7%
这一方法类似人类员工的入职培训：先理解价值观，再学习技能
对 AI Agent 在企业中的安全部署具有重大意义

来源： 36 氪 + 新智元
链接： https://36kr.com/p/3797755662883847

📰 原始来源

https://36kr.com/p/3797755662883847

← 上一篇

Khosla 支持的 Genesis AI 展示全栈机器人能力

下一篇 →

13 人团队挑战 Transformer：新架构 SSA 算力暴减千倍，成本仅 Opus 5%

📰 更多动态

行业2026-05-13 04:00

世界银行发布 2026 年世界发展报告：AI 正在重塑全球发展格局

行业2026-05-13 04:00

OpenAI 和 Anthropic 主导 2026 AI 竞赛：模型、企业与算力全面领先

安全2026-05-13 04:00

Google Chrome 被曝静默下载 4GB AI 模型到用户设备：未经同意，涉嫌违法