大语言模型今天·DataCamp + Latent Space

阿里发布 Qwen3.7-Max,Agent 基准全面超越 Claude Opus 4.6

阿里通义千问团队发布新一代旗舰模型 Qwen3.7-Max,专为 Agent 工作流设计。GPQA Diamond 得分 92.4 超越 Claude Opus 4.6 Max,Code Arena 排名第 4,成为中国实验室最高排名。

阿里在阿里云峰会上发布了 Qwen3.7-Max,定位为「Agent 时代的旗舰模型」。

关键数据:

  • GPQA Diamond:92.4 分,超越 Claude Opus 4.6 Max 的 91.3
  • Apex 推理基准:44.5 分,大幅领先 DeepSeek V4 Pro 的 38.3
  • Code Arena 排名:全球第 4,超越 GLM-5.1 和 DeepSeek V4
  • 自主优化演示:35 小时内完成 1158 次工具调用,实现 10 倍几何平均加速

核心特性:

  • 专为 Agent 场景优化,支持长期自主浏览器会话、可靠函数调用
  • 在 Claude Code、OpenClaw、Qwen Code 等多框架下表现一致
  • 全场景免费开放,所有用户无需付费即可直接使用

行业意义:

  • Qwen3.7-Max 在 Agent 编码、软件工程、MCP 工具使用等维度与 Claude 级模型直接竞争
  • 中国模型在全球榜单上的持续攀升,缩小与美国前沿实验室的差距

来源: DataCamp + SourceForge + Latent Space
链接: https://www.datacamp.com/blog/qwen3-7-max