← 首页/AI 资讯

大语言模型今天·DataCamp + Latent Space

阿里发布 Qwen3.7-Max，Agent 基准全面超越 Claude Opus 4.6

阿里通义千问团队发布新一代旗舰模型 Qwen3.7-Max，专为 Agent 工作流设计。GPQA Diamond 得分 92.4 超越 Claude Opus 4.6 Max，Code Arena 排名第 4，成为中国实验室最高排名。

阿里在阿里云峰会上发布了 Qwen3.7-Max，定位为「Agent 时代的旗舰模型」。

关键数据：

GPQA Diamond：92.4 分，超越 Claude Opus 4.6 Max 的 91.3
Apex 推理基准：44.5 分，大幅领先 DeepSeek V4 Pro 的 38.3
Code Arena 排名：全球第 4，超越 GLM-5.1 和 DeepSeek V4
自主优化演示：35 小时内完成 1158 次工具调用，实现 10 倍几何平均加速

核心特性：

专为 Agent 场景优化，支持长期自主浏览器会话、可靠函数调用
在 Claude Code、OpenClaw、Qwen Code 等多框架下表现一致
全场景免费开放，所有用户无需付费即可直接使用

行业意义：

Qwen3.7-Max 在 Agent 编码、软件工程、MCP 工具使用等维度与 Claude 级模型直接竞争
中国模型在全球榜单上的持续攀升，缩小与美国前沿实验室的差距

来源: DataCamp + SourceForge + Latent Space
链接: https://www.datacamp.com/blog/qwen3-7-max

📰 原始来源

https://www.datacamp.com/blog/qwen3-7-max

← 上一篇

MiniMax 发布 M3 模型，稀疏注意力机制实现百万 Token 场景 15 倍解码加速

下一篇 →

Google I/O 2026 深度回顾：Gemini Spark 24/7 自主智能体重塑搜索与编程

📰 更多动态

行业2026-05-28

豆包付费引发大模型商业化拐点讨论，中国 AI 用户付费率仅 9.8%

行业2026-05-28

2026 年高考期间六大 AI 平台将限制答题功能，豆包、通义、元宝等集体响应

安全2026-05-28

思科安全研究：所有前沿 AI 模型都无法抵御多轮对抗攻击