AI Agent 的安全性有了新解法。
- Anthropic 让 AI Agent 先阅读「员工手册」(行为规范),理解背后的原则
- 然后再接受具体的行为示范训练
- 在特定实验中,Agent 失控率从 54% 骤降到 7%
- 这一方法类似人类员工的入职培训:先理解价值观,再学习技能
- 对 AI Agent 在企业中的安全部署具有重大意义
来源: 36 氪 + 新智元
链接: https://36kr.com/p/3797755662883847
AI Agent 的安全性有了新解法。
来源: 36 氪 + 新智元
链接: https://36kr.com/p/3797755662883847