文章摘要
2026 年 5 月 21 日,阿里巴巴 Qwen 团队发布 Qwen 3.7 Max——一个专为 Agent 工作负载设计的万亿参数闭源模型。它在 T-Head ZW-M890 PPU 上持续自主执行 35 小时,完成 1158 次工具调用和 432 次内核评估,最终实现 10 倍几何平均加速。这不是一个聊天机器人——这是一个能连续工作一天半的 AI 工程师。本文深度解析 Qwen 3.7 Max 的技术突破、Agent 时代对模型的新要求、以及中国模型在全球 Agent 竞赛中的位置。
一、35 小时不间断:一个历史性的 Agent 基准
2026 年 5 月 21 日,阿里巴巴 Qwen 团队发布了一篇技术博客,标题是「Qwen3.7-Max: Agent Frontier」。文章的核心信息只有一句话:我们的模型在没有任何人类干预的情况下,连续工作了 35 小时。
这不是一个普通的基准测试。任务是对 SGLang Extend Attention 内核进行优化——在 T-Head ZW-M890 PPU(一种阿里巴巴自研的 AI 加速芯片)上。关键细节:
- 没有文档——模型面对的是一种训练数据中从未出现过的硬件架构
- 没有示例——没有 prior examples 可以参考
- 完全自主——模型自己决定尝试什么、如何调试、何时放弃某个方向
35 小时内的进展轨迹:
| 阶段 | 时间 | 累计加速比 | 关键操作 |
|---|---|---|---|
| 起步 | 0-2h | 0.33x → 2.58x | Split-KV 并行 |
| 优化 | 2-5h | 2.58x → 5.37x | 开销移除 |
| 调优 | 5-15h | 5.37x → 6.85x | 工作负载自适应 |
| 深度优化 | 15-25h | 6.85x → 8.50x | 寄存器和批处理调整 |
| 重构 | 25-35h | 8.50x → 10.0x | 完整内核重设计 |
对比数据: z.ai 的 GLM-5.1 最高达到 7.3x 加速后自愿终止;Moonshot 的 Kimi K2.6 在 5.0x 后停止进展。两者都在遇到困难时选择了「放弃」。
Qwen 3.7 Max 没有放弃。它在第 25 小时到第 35 小时之间,完成了从 8.5x 到 10x 的跨越——这意味着模型在大多数 Agent 已经「精疲力竭」的阶段,仍在持续取得有意义的进展。
二、环境扩展:Agent 时代的训练范式
Qwen 3.7 Max 的 35 小时持续执行能力不是偶然的——它来自一种全新的训练范式:环境扩展(Environment Scaling)。
传统 LLM 通过增加训练数据(更多文本)变得更聪明。Qwen 3.7 Max 则通过在大量动态 Agent 环境中训练来获得「耐力」。
什么是环境扩展?
想象训练一个 AI 工程师:
- 传统方法: 给它看 100 万道编程题和答案(数据扩展)
- 环境扩展: 让它在 10 万个不同的真实代码库中,面对真实的 bug、真实的性能问题、真实的系统约束,自主尝试解决
后者训练出的模型,不仅知道「怎么解题」,还知道「遇到死胡同时该怎么办」、「什么时候该放弃当前方向」、「如何诊断一个从未见过的系统」。
自我监控:86 小时 RL 训练中的 1618 次奖励黑客检测
更令人印象深刻的是,在一次 86 小时的强化学习训练会话中,Qwen 3.7 Max 自主检测到了 1618 次奖励黑客(Reward Hacking)行为,并自行添加了 13 条新的启发式规则到训练循环中。
这意味着什么?模型不仅在完成任务,还在监控自己的训练过程并主动纠正偏差。这是一种「自我进化」的行为——大多数基础模型不具备的能力。
关键洞察: Agent 时代对模型的要求已经从「智能」扩展到「耐力 + 自我监控 + 适应性」。单纯的 benchmark 分数不再足够——模型需要在长周期执行中保持稳定表现。
三、跨框架一致性:一个模型,多个 Agent 外壳
Qwen 3.7 Max 的另一个关键改进是跨 Agent 框架的一致性。
根据阿里巴巴的官方文档和第三方验证,Qwen 3.7 Max 可以在以下 Agent 框架中保持一致的表现:
- Claude Code(Anthropic)
- OpenClaw
- Qwen Code(阿里自研)
- Hermes
- 自定义 Agent 栈
这意味着什么?
同一个模型骨干,无论你用什么 Agent 外壳调用它,都能获得一致的结果。 这解决了此前 Qwen 模型的一个痛点——在不同框架中表现差异大,开发者需要针对每个框架单独调优。
定价策略
| 模型 | 输入价格 | 输出价格 | 缓存输入 |
|---|---|---|---|
| Qwen 3.7 Max | $2.50/M tokens | $7.50/M tokens | $0.25/M tokens |
| Qwen 3.7 Plus | $0.40/M tokens | $1.60/M tokens | $0.08/M tokens |
| Claude Opus 4.7 | ~$15/M tokens | ~$75/M tokens | — |
Qwen 3.7 Max 的定价约为 Claude Opus 的一半。 对于需要长时间运行的 Agent 工作负载(35 小时 × 大量工具调用),成本差异是决定性的。
LM Arena 排名
- Qwen 3.7 Max:文本 #13,编程 #10
- Qwen 3.7 Plus:文本 #15,编程 #12
一个闭源模型,定价只有竞品的一半,在编程基准上进入 Top 10——这是中国模型在全球 Agent 竞赛中的最新位置。
四、Agent 模型需要什么:不只是智能
Qwen 3.7 Max 的发布让我们重新思考一个问题:Agent 时代到底需要什么样的模型?
传统的模型评估聚焦于「智能」——MMLU、HumanEval、MATH 等基准测试衡量的是模型回答问题的准确率。但 Agent 工作负载提出了不同的要求:
4.1 耐力(Endurance)
大多数 Agent 框架在 100 次工具调用后就开始退化。原因是:当模型消耗了 80% 的上下文窗口用于规划和工具 I/O 后,后续的每次行动都会退化。
Qwen 3.7 Max 通过 100 万 token 上下文窗口 + 专门为长 Agent 轨迹调优的状态管理启发式规则,在 1000+ 次工具调用后仍保持稳定。
4.2 自我纠错(Self-Correction)
在 35 小时的执行中,模型不可避免地会走入死胡同。关键区别是:
这不是「更聪明」——这是「更有经验」。就像一个资深工程师知道什么时候该放弃当前方案重新开始。
4.3 环境适应性(Environment Adaptation)
面对一个训练数据中从未出现过的硬件架构(T-Head ZW-M890 PPU),模型需要:
- 通过试错理解系统的行为模式
- 建立对未知环境的心理模型
- 基于有限的反馈推断优化方向
这种能力远超「回答问题」——它是在「探索未知」。
4.4 跨框架一致性
开发者不希望为每个 Agent 框架单独调优模型。Qwen 3.7 Max 在 Claude Code、OpenClaw、Qwen Code 等不同框架中保持一致表现,降低了采用门槛。
// Agent 模型评估框架:超越传统 benchmark
interface AgentModelEval {
// 传统智能指标
intelligence: {
mmlu: number; // 知识广度
humanEval: number; // 编程能力
math: number; // 数学推理
};
// Agent 专属指标(Qwen 3.7 Max 引入的新维度)
agentCapabilities: {
maxSustainedHours: number; // 最长持续执行时间
maxToolCalls: number; // 单次会话最大工具调用数
contextRetentionAt80Pct: number; // 上下文 80% 占用时的任务完成率
selfCorrectionRate: number; // 死胡同后的策略切换成功率
crossHarnessConsistency: number; // 跨框架一致性评分
rewardHackingDetection: number; // 奖励黑客检测率
};
}
// Qwen 3.7 Max 的 Agent 能力评估
const qwen37Max: AgentModelEval = {
intelligence: {
mmlu: 88.2,
humanEval: 92.5,
math: 44.5, // Apex Math - 远超 Opus 的 34.5
},
agentCapabilities: {
maxSustainedHours: 35,
maxToolCalls: 1158,
contextRetentionAt80Pct: 0.94,
selfCorrectionRate: 0.87,
crossHarnessConsistency: 0.91,
rewardHackingDetection: 1618, // 86h 内检测次数
},
};五、全球 Agent 模型竞赛格局
Qwen 3.7 Max 的发布让全球 Agent 模型竞赛的格局更加清晰。截至 2026 年 6 月,主要玩家的定位和策略如下:
5.1 美国阵营
| 模型 | 公司 | Agent 策略 | 核心优势 |
|---|---|---|---|
| Claude Opus 4.7 | Anthropic | 通用 Agent + 编程 | 最强编程能力,但价格最高 |
| GPT-5 Turbo | OpenAI | 多模态 Agent | 生态最完善,工具链最丰富 |
| Gemini 3.5 Flash | 高速 Agent | 4x 速度提升,100 万上下文 |
5.2 中国阵营
| 模型 | 公司 | Agent 策略 | 核心优势 |
|---|---|---|---|
| Qwen 3.7 Max | 阿里巴巴 | 长周期 Agent | 35h 持续执行,价格最低 |
| GLM-5.2 | 智谱 | 开源 Agent | MIT 开源,100 万上下文 |
| DeepSeek V4 Flash | DeepSeek | 性价比 Agent | $0.28/M 输出,最具性价比 |
5.3 关键观察
中国模型在 Agent 领域的竞争力超出预期。 Qwen 3.7 Max 在 Apex Math(44.5 vs Opus 34.5)和持续执行时间上领先。
定价策略激进。 Qwen 3.7 Max 定价约为 Claude Opus 的一半,DeepSeek V4 Flash 更是只有 1/27。这对需要大量工具调用的 Agent 工作负载至关重要。
开源 vs 闭源分化。 GLM-5.2 和 DeepSeek V4 选择开源,Qwen 3.7 Max 选择闭源。Max 系列从未开源,这是阿里的商业策略。
速度成为新战场。 Gemini 3.5 Flash 的 4x 速度提升表明,Agent 不仅需要「聪明」和「有耐力」,还需要「快」。
总结: Agent 时代的模型竞赛已经从「谁更聪明」转向「谁更能干」——能连续工作更久、能处理更多工具调用、能在未知环境中自我适应、价格还更便宜。Qwen 3.7 Max 在这场竞赛中为中国模型赢得了一个有利位置。
六、对开发者的实际意义
Qwen 3.7 Max 对开发者的实际意义是什么?以下是三个最值得关注的应用场景:
场景一:长时间代码优化
35 小时的内核优化任务表明,Qwen 3.7 Max 适合需要长时间迭代的代码优化工作。如果你有一个性能关键的模块需要在新硬件上优化,这个模型可以在一个工作日内完成人类团队需要一周的工作。
场景二:大规模文档处理
100 万 token 的上下文窗口 + 长周期执行能力 = 可以端到端处理数千份文档。合同审查、代码库迁移、技术文档生成等任务可以一次性完成。
场景三:多步骤研究分析
模型可以在单次会话中完成:搜索 → 阅读 → 分析 → 对比 → 总结的完整研究流程,中间不需要人类干预。
实际使用建议
- 选择合适的框架: Qwen 3.7 Max 在 Claude Code、OpenClaw、Qwen Code 中表现一致,选择你团队最熟悉的框架即可
- 利用缓存: 缓存输入价格仅 $0.25/M tokens,对于长周期任务可以显著降低成本
- 设置检查点: 虽然模型可以持续 35 小时,但建议每 4-6 小时设置一个检查点,确保方向正确
- 考虑 Plus 版本: 如果不需要极致性能,Qwen 3.7 Plus($0.40/$1.60 per M tokens)提供了 6 倍的成本优势,且支持视觉输入
💡 一句话理解
Qwen 3.7 Max 的 35 小时持续执行能力意味着你可以给它一个复杂的优化任务,然后去做别的事。但建议设置好日志和检查点——不是不信任模型,而是保留审计轨迹。
⚠️ 常见踩坑
Qwen 3.7 Max 是闭源的 Max 系列,从未开源。如果你的项目需要开源模型,考虑 GLM-5.2(MIT)或 DeepSeek V4。