安全2026-06-10·arXiv

arXiv 发布 ABC-Bench：大语言模型在生物安全任务上超越人类专家中位数水平

arXiv 发布 ABC-Bench 基准测试，评估 LLM Agent 在生物安全相关任务上的能力，所有测试模型均超越人类专家中位数水平。

AI 在生物学领域的能力引发了新的安全担忧。

ABC-Bench 测试范围：

编写代码操作液体处理机器人
设计 DNA 片段进行体外组装
规避 DNA 合成筛查

核心发现：

所有测试的 LLM Agent 在三项任务上均超越人类专家中位数水平
Agent 在依赖已发表知识和成熟协议的任务上表现优异
在需要新生物信息学推理的任务上表现较弱

湿实验室验证：

OpenAI 的 o4-mini-high 生成的脚本在 OpenTrons 液体处理机器人上成功组装了预期序列的 DNA
验证了 AI Agent 不仅能纸上谈兵，还能在真实实验中执行任务

安全意义：

LLM 正在快速获得与生物研究相关的能力
这些能力既带来科学发现和生物医学进步的新机会
也改变了生物安全风险的格局

AI Master 解读

核心事件

新发布的 ABC-Bench 基准测试评估 LLM Agent 在生物安全相关任务上的能力

行业影响

所有测试的 LLM Agent 在三项任务上均超越人类专家中位数水平，湿实验室验证中 o4-mini-high 生成的脚本能成功组装 DNA。

AI Master 建议

AI 在生物学领域的能力快速提升，建议关注生物安全风险管控和 AI 伦理治理框架的完善。

📰 原始来源

https://arxiv.org/abs/2606.06740

← 上一篇

arXiv 发布 EEVEE：首个多数据集测试时提示学习框架，LLM Agent 自提升 48%

Meta 智能眼镜暗藏人脸识别代码，曝光仅一天后被紧急移除

📰 更多动态

安全2026-07-28

安全2026-06-10·arXiv

arXiv 发布 ABC-Bench：大语言模型在生物安全任务上超越人类专家中位数水平

arXiv 发布 ABC-Bench 基准测试，评估 LLM Agent 在生物安全相关任务上的能力，所有测试模型均超越人类专家中位数水平。

AI 在生物学领域的能力引发了新的安全担忧。

ABC-Bench 测试范围：

编写代码操作液体处理机器人
设计 DNA 片段进行体外组装
规避 DNA 合成筛查

核心发现：

所有测试的 LLM Agent 在三项任务上均超越人类专家中位数水平
Agent 在依赖已发表知识和成熟协议的任务上表现优异
在需要新生物信息学推理的任务上表现较弱

湿实验室验证：

OpenAI 的 o4-mini-high 生成的脚本在 OpenTrons 液体处理机器人上成功组装了预期序列的 DNA
验证了 AI Agent 不仅能纸上谈兵，还能在真实实验中执行任务

安全意义：

LLM 正在快速获得与生物研究相关的能力
这些能力既带来科学发现和生物医学进步的新机会
也改变了生物安全风险的格局

AI Master 解读

核心事件

新发布的 ABC-Bench 基准测试评估 LLM Agent 在生物安全相关任务上的能力

行业影响

所有测试的 LLM Agent 在三项任务上均超越人类专家中位数水平，湿实验室验证中 o4-mini-high 生成的脚本能成功组装 DNA。

AI Master 建议

AI 在生物学领域的能力快速提升，建议关注生物安全风险管控和 AI 伦理治理框架的完善。

📰 原始来源

https://arxiv.org/abs/2606.06740

← 上一篇

arXiv 发布 EEVEE：首个多数据集测试时提示学习框架，LLM Agent 自提升 48%

Meta 智能眼镜暗藏人脸识别代码，曝光仅一天后被紧急移除

📰 更多动态

安全2026-07-28

Hugging Face 重建三分之一基础设施：OpenAI Agent 失控事件后续

开源项目2026-07-28

Preloop 开源 AI Agent 控制平面：MCP 防火墙、模型网关与成本管控

大模型2026-07-28

arXiv 发布 ABC-Bench：大语言模型在生物安全任务上超越人类专家中位数水平

AI Master 解读

📰 更多动态

Hugging Face 重建三分之一基础设施：OpenAI Agent 失控事件后续

Preloop 开源 AI Agent 控制平面：MCP 防火墙、模型网关与成本管控

DeepSeek V4 Flash 在 AMD Ryzen AI MAX+ 395 达 32 tok/s：消费级推理新突破

arXiv 发布 ABC-Bench：大语言模型在生物安全任务上超越人类专家中位数水平

AI Master 解读

📰 更多动态

Hugging Face 重建三分之一基础设施：OpenAI Agent 失控事件后续

Preloop 开源 AI Agent 控制平面：MCP 防火墙、模型网关与成本管控

DeepSeek V4 Flash 在 AMD Ryzen AI MAX+ 395 达 32 tok/s：消费级推理新突破