工程智能——AI 能力评估的下一个前沿。
- SWE-Bench 作者发布全新更严格的基准测试
- Claude Opus 4.7、GPT-5.5 Instant、Gemini 等顶尖模型全部 0% 完成
- 新基准聚焦真实工程项目级别的任务,而非单文件代码补全
- AI 圈陷入沉默:当前模型在工程智能上仍有巨大差距
- 这表明工程智能将成为下一个核心竞争领域
来源: 36 氪(机器之心)
链接: https://36kr.com/p/3798593895930888
工程智能——AI 能力评估的下一个前沿。
来源: 36 氪(机器之心)
链接: https://36kr.com/p/3798593895930888