Agent2026-05-07 00:00·36 氪 + 新智元

Anthropic 让 AI 先读员工手册再上岗:Agent 失控率从 54% 降到 7%

36 氪报道,Anthropic 最新研究发现,让 AI Agent 先理解规范背后的「意义」再接受行为示范,在特定实验中将失控率从 54% 大幅降至 7%。

AI Agent 的安全性有了新解法。

  • Anthropic 让 AI Agent 先阅读「员工手册」(行为规范),理解背后的原则
  • 然后再接受具体的行为示范训练
  • 在特定实验中,Agent 失控率从 54% 骤降到 7%
  • 这一方法类似人类员工的入职培训:先理解价值观,再学习技能
  • 对 AI Agent 在企业中的安全部署具有重大意义

来源: 36 氪 + 新智元
链接: https://36kr.com/p/3797755662883847