Agent4 天前·Computer Weekly
阿里发布 Qwen 3.7 Max:万亿参数 Agent 模型,35 小时持续执行 1158 次工具调用
阿里巴巴在新加坡首届 Qwen 大会上正式发布 Qwen 3.7 Max,这是专为 Agent 时代设计的旗舰模型。拥有超过 1 万亿参数、100 万 token 上下文窗口,在单次任务中可持续执行 35 小时、完成 1158 次工具调用。SWE-bench 得分 60.6%,Terminal-Bench Hard 50.8%,在科学推理、编码和 Agent 能力上较 Qwen 3.6 Max 大幅提升。API 定价 $2.50/百万输入 token、$7.50/百万输出 token,约为 Claude Opus 4.8 的一半。
AI Master 解读
核心事件
阿里发布 Qwen 3.7 Max,专为长周期 Agent 任务设计。
行业影响
影响分析: 35 小时持续执行、1158 次工具调用——这不是在测试模型的回答能力,而是在测试模型的「工作耐力」。Agent 时代要求模型像人类工程师一样长时间专注于复杂任务。关键性能指标方面,知识得分 71.2 超越 DeepSeek V4 Pro 的 66.1,SWE-bench Pro 达到 60.6%,API 定价约为 Claude Opus 4.8 的一半。
AI Master 建议
Qwen 3.7 Max 是中国模型在 Agent 领域的重要突破,关注其在企业级长周期任务中的实际表现。
Qwen 3.7 Max 详解
核心参数
| 项目 | 数据 |
|---|---|
| 参数规模 | 1 万亿+ |
| 上下文窗口 | 100 万 token |
| 最大输出 | 65,536 token |
| 持续执行 | 35 小时 |
| 工具调用 | 1,158 次(单次任务) |
基准测试
| 测试 | 得分 |
|---|---|
| SWE-bench Pro | 60.6% |
| Terminal-Bench Hard | 50.8% |
| CritPt | 13.4% |
| HLE | 38.1% |
| Intelligence Index | 56.6 |
定价对比
| 模型 | 输入/百万 token | 输出/百万 token |
|---|---|---|
| Qwen 3.7 Max | $2.50 | $7.50 |
| Claude Opus 4.8 | ~$5 | ~$25 |
| DeepSeek V4 Pro | ~$1 | ~$3 |
发布背景
- 地点:新加坡首届 Qwen 大会
- 时间:2026年6月
- 定位:Agent 时代旗舰模型