行业2026-05-07 12:00·36 氪（机器之心）

SWE-Bench 新基准测试 AI 代码能力：Claude/GPT/Gemini 全部 0% 完成

机器之心报道，SWE-Bench 作者发布全新基准测试，结果显示 Claude、GPT-5.5、Gemini 等顶尖模型的完成率均为 0%，AI 工程智能成为下一个竞争焦点。

工程智能——AI 能力评估的下一个前沿。

来源： 36 氪（机器之心）
链接： https://36kr.com/p/3798593895930888

📰 原始来源

← 上一篇

腾讯混元 Hy3 Preview 上线两周，Token 调用量增长 10 倍

千问电脑端上线语音输入法，大模型公司争夺语音入口

📰 更多动态