Agent4 天前·Computer Weekly

阿里发布 Qwen 3.7 Max:万亿参数 Agent 模型,35 小时持续执行 1158 次工具调用

阿里巴巴在新加坡首届 Qwen 大会上正式发布 Qwen 3.7 Max,这是专为 Agent 时代设计的旗舰模型。拥有超过 1 万亿参数、100 万 token 上下文窗口,在单次任务中可持续执行 35 小时、完成 1158 次工具调用。SWE-bench 得分 60.6%,Terminal-Bench Hard 50.8%,在科学推理、编码和 Agent 能力上较 Qwen 3.6 Max 大幅提升。API 定价 $2.50/百万输入 token、$7.50/百万输出 token,约为 Claude Opus 4.8 的一半。

AI Master 解读

核心事件

阿里发布 Qwen 3.7 Max,专为长周期 Agent 任务设计。

行业影响

影响分析: 35 小时持续执行、1158 次工具调用——这不是在测试模型的回答能力,而是在测试模型的「工作耐力」。Agent 时代要求模型像人类工程师一样长时间专注于复杂任务。关键性能指标方面,知识得分 71.2 超越 DeepSeek V4 Pro 的 66.1,SWE-bench Pro 达到 60.6%,API 定价约为 Claude Opus 4.8 的一半。

AI Master 建议

Qwen 3.7 Max 是中国模型在 Agent 领域的重要突破,关注其在企业级长周期任务中的实际表现。

Qwen 3.7 Max 详解

核心参数

项目 数据
参数规模 1 万亿+
上下文窗口 100 万 token
最大输出 65,536 token
持续执行 35 小时
工具调用 1,158 次(单次任务)

基准测试

测试 得分
SWE-bench Pro 60.6%
Terminal-Bench Hard 50.8%
CritPt 13.4%
HLE 38.1%
Intelligence Index 56.6

定价对比

模型 输入/百万 token 输出/百万 token
Qwen 3.7 Max $2.50 $7.50
Claude Opus 4.8 ~$5 ~$25
DeepSeek V4 Pro ~$1 ~$3

发布背景

  • 地点:新加坡首届 Qwen 大会
  • 时间:2026年6月
  • 定位:Agent 时代旗舰模型