大语言模型2 天前·新智元 + 36氪

OpenAI推理之父Noam Brown炮轰行业:单一跑分评价AI已过时

OpenAI o1推理模型核心缔造者Noam Brown发长文批评整个AI行业:用单一跑分评价AI模型从2024年就过时了。他指出GPT-5.5看似只比5.4强一点,但控制推理预算后差距天壤之别。

AI Master 解读

核心事件

OpenAI推理之父炮轰行业评估方式

行业影响

AI模型评估体系正在经历从单一基准向多维评估的范式转变。推理预算作为理解模型推理深度的关键变量,揭示了表面跑分相近的模型在实际任务中可能存在数量级差异。行业需要建立更科学的能力画像体系。

AI Master 建议

评估模型时应控制推理预算变量,避免仅看单一跑分。

Noam Brown批评行业评估方式

2026年6月11日,OpenAI o1推理模型核心缔造者Noam Brown发表长文。

核心观点

  • 用单一跑分评价AI模型从2024年就过时
  • GPT-5.5看起来只比5.4强一点,但控制推理预算后差距巨大
  • 行业需要建立更全面的模型评估体系
  • 推理能力是AGI的关键路径,但不应只用分数衡量

背景

  • Noam Brown是OpenAI推理模型的核心理念推动者
  • 其评论直指当前AI基准测试的局限性

来源: 新智元 + OpenAI
链接: https://36kr.com/