行业2026-05-07 12:00·36 氪(机器之心)

SWE-Bench 新基准测试 AI 代码能力:Claude/GPT/Gemini 全部 0% 完成

机器之心报道,SWE-Bench 作者发布全新基准测试,结果显示 Claude、GPT-5.5、Gemini 等顶尖模型的完成率均为 0%,AI 工程智能成为下一个竞争焦点。

工程智能——AI 能力评估的下一个前沿。

  • SWE-Bench 作者发布全新更严格的基准测试
  • Claude Opus 4.7、GPT-5.5 Instant、Gemini 等顶尖模型全部 0% 完成
  • 新基准聚焦真实工程项目级别的任务,而非单文件代码补全
  • AI 圈陷入沉默:当前模型在工程智能上仍有巨大差距
  • 这表明工程智能将成为下一个核心竞争领域

来源: 36 氪(机器之心)
链接: https://36kr.com/p/3798593895930888