← 首页/AI 资讯

大语言模型2026-05-22 16:00·The Decoder + CMU + EleutherAI + SNU

SOOHAK 数学基准：64 位数学家构建 439 道题目，其中 99 道故意无解，AI 自信地答错

卡内基梅隆大学、EleutherAI 和首尔国立大学的 64 名数学博士构建 SOOHAK 基准，其中 99 道题故意设计为无解。前沿 AI 模型无法识别无解问题，自信地给出错误答案。最佳模型 Gemini 3 Pro 在研究级问题上仅得 30%。

SOOHAK：AI 的元认知危机被量化

2026 年 5 月，The Decoder + 研究团队发布。

核心发现

基准结构: 439 道题，其中 340 道研究级挑战 + 99 道故意有缺陷（无有效答案）
关键失败模式: AI 模型无法识别无解问题，自信地生成错误答案
最佳表现: Gemini 3 Pro 在研究级问题上仅 30% 正确率
数据发布: 完整数据集将于 2026 年底公开（防止训练数据污染），目前可请求评估

深层意义

这暴露了一个可靠性差距：在科学、法律或金融场景中部署 AI 时，AI 模型可能以最危险的方式出错——表现得非常自信。这不是幻觉问题，而是推理元认知问题。

来源: The Decoder + 卡内基梅隆大学 + EleutherAI + 首尔国立大学
链接: https://the-decoder.com/new-math-benchmark-reveals-ai-models-confidently-solve-problems-that-have-no-solution/

📰 原始来源

https://the-decoder.com/new-math-benchmark-reveals-ai-models-confidently-solve-problems-that-have-no-solution/

← 上一篇

OpenAI Daybreak 网络安全计划：GPT-5.5-Cyber 向欧洲企业开放，直接对标 Anthropic Project Glasswing

下一篇 →

Oppo 开源 X-OmniClaw：设备端 Android 代理，无需云端即可在真实应用中滚动、读取和操作

📰 更多动态

行业2026-05-18 00:00

Eclipse 获 25 亿美元 Cerebras 订单，验证物理世界 AI 基础设施投资逻辑

行业2026-05-18 00:00

TechCrunch 深度分析：AI 淘金热中的赢家与输家，贫富差距正在扩大

行业2026-05-18 00:00

Cisco 创收与裁员同日宣布：AI 转型下的科技巨头两难