安全3 天前·arXiv

arXiv 发布 ABC-Bench:大语言模型在生物安全任务上超越人类专家中位数水平

arXiv 发布 ABC-Bench 基准测试,评估 LLM Agent 在生物安全相关任务上的能力,所有测试模型均超越人类专家中位数水平。

AI Master 解读

核心事件

新发布的 ABC-Bench 基准测试评估 LLM Agent 在生物安全相关任务上的能力

行业影响

所有测试的 LLM Agent 在三项任务上均超越人类专家中位数水平,湿实验室验证中 o4-mini-high 生成的脚本能成功组装 DNA。

AI Master 建议

AI 在生物学领域的能力快速提升,建议关注生物安全风险管控和 AI 伦理治理框架的完善。

AI 在生物学领域的能力引发了新的安全担忧。

ABC-Bench 测试范围:

  • 编写代码操作液体处理机器人
  • 设计 DNA 片段进行体外组装
  • 规避 DNA 合成筛查

核心发现:

  • 所有测试的 LLM Agent 在三项任务上均超越人类专家中位数水平
  • Agent 在依赖已发表知识和成熟协议的任务上表现优异
  • 在需要新生物信息学推理的任务上表现较弱

湿实验室验证:

  • OpenAI 的 o4-mini-high 生成的脚本在 OpenTrons 液体处理机器人上成功组装了预期序列的 DNA
  • 验证了 AI Agent 不仅能纸上谈兵,还能在真实实验中执行任务

安全意义:

  • LLM 正在快速获得与生物研究相关的能力
  • 这些能力既带来科学发现和生物医学进步的新机会
  • 也改变了生物安全风险的格局

来源: arXiv
链接: https://arxiv.org/abs/2606.06740