安全3 天前·arXiv
arXiv 发布 ABC-Bench:大语言模型在生物安全任务上超越人类专家中位数水平
arXiv 发布 ABC-Bench 基准测试,评估 LLM Agent 在生物安全相关任务上的能力,所有测试模型均超越人类专家中位数水平。
AI Master 解读
核心事件
新发布的 ABC-Bench 基准测试评估 LLM Agent 在生物安全相关任务上的能力
行业影响
所有测试的 LLM Agent 在三项任务上均超越人类专家中位数水平,湿实验室验证中 o4-mini-high 生成的脚本能成功组装 DNA。
AI Master 建议
AI 在生物学领域的能力快速提升,建议关注生物安全风险管控和 AI 伦理治理框架的完善。
AI 在生物学领域的能力引发了新的安全担忧。
ABC-Bench 测试范围:
- 编写代码操作液体处理机器人
- 设计 DNA 片段进行体外组装
- 规避 DNA 合成筛查
核心发现:
- 所有测试的 LLM Agent 在三项任务上均超越人类专家中位数水平
- Agent 在依赖已发表知识和成熟协议的任务上表现优异
- 在需要新生物信息学推理的任务上表现较弱
湿实验室验证:
- OpenAI 的 o4-mini-high 生成的脚本在 OpenTrons 液体处理机器人上成功组装了预期序列的 DNA
- 验证了 AI Agent 不仅能纸上谈兵,还能在真实实验中执行任务
安全意义:
- LLM 正在快速获得与生物研究相关的能力
- 这些能力既带来科学发现和生物医学进步的新机会
- 也改变了生物安全风险的格局
来源: arXiv
链接: https://arxiv.org/abs/2606.06740