大语言模型2026-05-22 16:00·The Decoder + CMU + EleutherAI + SNU

SOOHAK 数学基准:64 位数学家构建 439 道题目,其中 99 道故意无解,AI 自信地答错

卡内基梅隆大学、EleutherAI 和首尔国立大学的 64 名数学博士构建 SOOHAK 基准,其中 99 道题故意设计为无解。前沿 AI 模型无法识别无解问题,自信地给出错误答案。最佳模型 Gemini 3 Pro 在研究级问题上仅得 30%。

SOOHAK:AI 的元认知危机被量化

2026 年 5 月,The Decoder + 研究团队发布。

核心发现

  • 基准结构: 439 道题,其中 340 道研究级挑战 + 99 道故意有缺陷(无有效答案)
  • 关键失败模式: AI 模型无法识别无解问题,自信地生成错误答案
  • 最佳表现: Gemini 3 Pro 在研究级问题上仅 30% 正确率
  • 数据发布: 完整数据集将于 2026 年底公开(防止训练数据污染),目前可请求评估

深层意义

这暴露了一个可靠性差距:在科学、法律或金融场景中部署 AI 时,AI 模型可能以最危险的方式出错——表现得非常自信。这不是幻觉问题,而是推理元认知问题。

来源: The Decoder + 卡内基梅隆大学 + EleutherAI + 首尔国立大学
链接: https://the-decoder.com/new-math-benchmark-reveals-ai-models-confidently-solve-problems-that-have-no-solution/