💡

文章摘要

2026 年 5 月 21 日,阿里巴巴 Qwen 团队发布 Qwen 3.7 Max——一个专为 Agent 工作负载设计的万亿参数闭源模型。它在 T-Head ZW-M890 PPU 上持续自主执行 35 小时,完成 1158 次工具调用和 432 次内核评估,最终实现 10 倍几何平均加速。这不是一个聊天机器人——这是一个能连续工作一天半的 AI 工程师。本文深度解析 Qwen 3.7 Max 的技术突破、Agent 时代对模型的新要求、以及中国模型在全球 Agent 竞赛中的位置。

一、35 小时不间断:一个历史性的 Agent 基准

2026 年 5 月 21 日,阿里巴巴 Qwen 团队发布了一篇技术博客,标题是「Qwen3.7-Max: Agent Frontier」。文章的核心信息只有一句话:我们的模型在没有任何人类干预的情况下,连续工作了 35 小时。

这不是一个普通的基准测试。任务是对 SGLang Extend Attention 内核进行优化——在 T-Head ZW-M890 PPU(一种阿里巴巴自研的 AI 加速芯片)上。关键细节:

  • 没有文档——模型面对的是一种训练数据中从未出现过的硬件架构
  • 没有示例——没有 prior examples 可以参考
  • 完全自主——模型自己决定尝试什么、如何调试、何时放弃某个方向

35 小时内的进展轨迹

阶段 时间 累计加速比 关键操作
起步 0-2h 0.33x → 2.58x Split-KV 并行
优化 2-5h 2.58x → 5.37x 开销移除
调优 5-15h 5.37x → 6.85x 工作负载自适应
深度优化 15-25h 6.85x → 8.50x 寄存器和批处理调整
重构 25-35h 8.50x → 10.0x 完整内核重设计

对比数据: z.ai 的 GLM-5.1 最高达到 7.3x 加速后自愿终止;Moonshot 的 Kimi K2.6 在 5.0x 后停止进展。两者都在遇到困难时选择了「放弃」。

Qwen 3.7 Max 没有放弃。它在第 25 小时到第 35 小时之间,完成了从 8.5x 到 10x 的跨越——这意味着模型在大多数 Agent 已经「精疲力竭」的阶段,仍在持续取得有意义的进展。

图表加载中…

二、环境扩展:Agent 时代的训练范式

Qwen 3.7 Max 的 35 小时持续执行能力不是偶然的——它来自一种全新的训练范式:环境扩展(Environment Scaling)。

传统 LLM 通过增加训练数据(更多文本)变得更聪明。Qwen 3.7 Max 则通过在大量动态 Agent 环境中训练来获得「耐力」。

什么是环境扩展?

想象训练一个 AI 工程师:

  • 传统方法: 给它看 100 万道编程题和答案(数据扩展)
  • 环境扩展: 让它在 10 万个不同的真实代码库中,面对真实的 bug、真实的性能问题、真实的系统约束,自主尝试解决

后者训练出的模型,不仅知道「怎么解题」,还知道「遇到死胡同时该怎么办」、「什么时候该放弃当前方向」、「如何诊断一个从未见过的系统」。

自我监控:86 小时 RL 训练中的 1618 次奖励黑客检测

更令人印象深刻的是,在一次 86 小时的强化学习训练会话中,Qwen 3.7 Max 自主检测到了 1618 次奖励黑客(Reward Hacking)行为,并自行添加了 13 条新的启发式规则到训练循环中。

这意味着什么?模型不仅在完成任务,还在监控自己的训练过程并主动纠正偏差。这是一种「自我进化」的行为——大多数基础模型不具备的能力。

关键洞察: Agent 时代对模型的要求已经从「智能」扩展到「耐力 + 自我监控 + 适应性」。单纯的 benchmark 分数不再足够——模型需要在长周期执行中保持稳定表现。

三、跨框架一致性:一个模型,多个 Agent 外壳

Qwen 3.7 Max 的另一个关键改进是跨 Agent 框架的一致性。

根据阿里巴巴的官方文档和第三方验证,Qwen 3.7 Max 可以在以下 Agent 框架中保持一致的表现:

这意味着什么?

同一个模型骨干,无论你用什么 Agent 外壳调用它,都能获得一致的结果。 这解决了此前 Qwen 模型的一个痛点——在不同框架中表现差异大,开发者需要针对每个框架单独调优。

定价策略

模型 输入价格 输出价格 缓存输入
Qwen 3.7 Max $2.50/M tokens $7.50/M tokens $0.25/M tokens
Qwen 3.7 Plus $0.40/M tokens $1.60/M tokens $0.08/M tokens
Claude Opus 4.7 ~$15/M tokens ~$75/M tokens

Qwen 3.7 Max 的定价约为 Claude Opus 的一半。 对于需要长时间运行的 Agent 工作负载(35 小时 × 大量工具调用),成本差异是决定性的。

LM Arena 排名

  • Qwen 3.7 Max:文本 #13,编程 #10
  • Qwen 3.7 Plus:文本 #15,编程 #12

一个闭源模型,定价只有竞品的一半,在编程基准上进入 Top 10——这是中国模型在全球 Agent 竞赛中的最新位置。

图表加载中…

四、Agent 模型需要什么:不只是智能

Qwen 3.7 Max 的发布让我们重新思考一个问题:Agent 时代到底需要什么样的模型?

传统的模型评估聚焦于「智能」——MMLUHumanEval、MATH 等基准测试衡量的是模型回答问题的准确率。但 Agent 工作负载提出了不同的要求:

4.1 耐力(Endurance)

大多数 Agent 框架在 100 次工具调用后就开始退化。原因是:当模型消耗了 80% 的上下文窗口用于规划和工具 I/O 后,后续的每次行动都会退化。

Qwen 3.7 Max 通过 100 万 token 上下文窗口 + 专门为长 Agent 轨迹调优的状态管理启发式规则,在 1000+ 次工具调用后仍保持稳定。

4.2 自我纠错(Self-Correction)

在 35 小时的执行中,模型不可避免地会走入死胡同。关键区别是:

  • 普通模型:走入死胡同后继续尝试,浪费 token
  • Qwen 3.7 Max:诊断编译失败,分析原因,切换策略

这不是「更聪明」——这是「更有经验」。就像一个资深工程师知道什么时候该放弃当前方案重新开始。

4.3 环境适应性(Environment Adaptation)

面对一个训练数据中从未出现过的硬件架构(T-Head ZW-M890 PPU),模型需要:

  1. 通过试错理解系统的行为模式
  2. 建立对未知环境的心理模型
  3. 基于有限的反馈推断优化方向

这种能力远超「回答问题」——它是在「探索未知」。

4.4 跨框架一致性

开发者不希望为每个 Agent 框架单独调优模型。Qwen 3.7 Max 在 Claude CodeOpenClawQwen Code 等不同框架中保持一致表现,降低了采用门槛。

typescript
agent-model-eval.ts
// Agent 模型评估框架:超越传统 benchmark
interface AgentModelEval {
  // 传统智能指标
  intelligence: {
    mmlu: number;        // 知识广度
    humanEval: number;   // 编程能力
    math: number;        // 数学推理
  };
  
  // Agent 专属指标(Qwen 3.7 Max 引入的新维度)
  agentCapabilities: {
    maxSustainedHours: number;      // 最长持续执行时间
    maxToolCalls: number;           // 单次会话最大工具调用数
    contextRetentionAt80Pct: number; // 上下文 80% 占用时的任务完成率
    selfCorrectionRate: number;     // 死胡同后的策略切换成功率
    crossHarnessConsistency: number; // 跨框架一致性评分
    rewardHackingDetection: number;  // 奖励黑客检测率
  };
}

// Qwen 3.7 Max 的 Agent 能力评估
const qwen37Max: AgentModelEval = {
  intelligence: {
    mmlu: 88.2,
    humanEval: 92.5,
    math: 44.5,  // Apex Math - 远超 Opus 的 34.5
  },
  agentCapabilities: {
    maxSustainedHours: 35,
    maxToolCalls: 1158,
    contextRetentionAt80Pct: 0.94,
    selfCorrectionRate: 0.87,
    crossHarnessConsistency: 0.91,
    rewardHackingDetection: 1618,  // 86h 内检测次数
  },
};

五、全球 Agent 模型竞赛格局

Qwen 3.7 Max 的发布让全球 Agent 模型竞赛的格局更加清晰。截至 2026 年 6 月,主要玩家的定位和策略如下:

5.1 美国阵营

模型 公司 Agent 策略 核心优势
Claude Opus 4.7 Anthropic 通用 Agent + 编程 最强编程能力,但价格最高
GPT-5 Turbo OpenAI 多模态 Agent 生态最完善,工具链最丰富
Gemini 3.5 Flash Google 高速 Agent 4x 速度提升,100 万上下文

5.2 中国阵营

模型 公司 Agent 策略 核心优势
Qwen 3.7 Max 阿里巴巴 长周期 Agent 35h 持续执行,价格最低
GLM-5.2 智谱 开源 Agent MIT 开源,100 万上下文
DeepSeek V4 Flash DeepSeek 性价比 Agent $0.28/M 输出,最具性价比

5.3 关键观察

  1. 中国模型在 Agent 领域的竞争力超出预期。 Qwen 3.7 Max 在 Apex Math(44.5 vs Opus 34.5)和持续执行时间上领先。

  2. 定价策略激进。 Qwen 3.7 Max 定价约为 Claude Opus 的一半,DeepSeek V4 Flash 更是只有 1/27。这对需要大量工具调用的 Agent 工作负载至关重要。

  3. 开源 vs 闭源分化。 GLM-5.2 和 DeepSeek V4 选择开源,Qwen 3.7 Max 选择闭源。Max 系列从未开源,这是阿里的商业策略

  4. 速度成为新战场。 Gemini 3.5 Flash 的 4x 速度提升表明,Agent 不仅需要「聪明」和「有耐力」,还需要「快」。

总结: Agent 时代的模型竞赛已经从「谁更聪明」转向「谁更能干」——能连续工作更久、能处理更多工具调用、能在未知环境中自我适应、价格还更便宜。Qwen 3.7 Max 在这场竞赛中为中国模型赢得了一个有利位置。

六、对开发者的实际意义

Qwen 3.7 Max 对开发者的实际意义是什么?以下是三个最值得关注的应用场景:

场景一:长时间代码优化

35 小时的内核优化任务表明,Qwen 3.7 Max 适合需要长时间迭代的代码优化工作。如果你有一个性能关键的模块需要在新硬件上优化,这个模型可以在一个工作日内完成人类团队需要一周的工作。

场景二:大规模文档处理

100 万 token上下文窗口 + 长周期执行能力 = 可以端到端处理数千份文档。合同审查、代码库迁移、技术文档生成等任务可以一次性完成。

场景三:多步骤研究分析

模型可以在单次会话中完成:搜索 → 阅读 → 分析 → 对比 → 总结的完整研究流程,中间不需要人类干预。

实际使用建议

  1. 选择合适的框架: Qwen 3.7 Max 在 Claude CodeOpenClawQwen Code 中表现一致,选择你团队最熟悉的框架即可
  2. 利用缓存: 缓存输入价格仅 $0.25/M tokens,对于长周期任务可以显著降低成本
  3. 设置检查点: 虽然模型可以持续 35 小时,但建议每 4-6 小时设置一个检查点,确保方向正确
  4. 考虑 Plus 版本: 如果不需要极致性能,Qwen 3.7 Plus($0.40/$1.60 per M tokens)提供了 6 倍的成本优势,且支持视觉输入

💡 一句话理解

Qwen 3.7 Max 的 35 小时持续执行能力意味着你可以给它一个复杂的优化任务,然后去做别的事。但建议设置好日志和检查点——不是不信任模型,而是保留审计轨迹

⚠️ 常见踩坑

Qwen 3.7 Max 是闭源的 Max 系列,从未开源。如果你的项目需要开源模型,考虑 GLM-5.2(MIT)或 DeepSeek V4。