Qwen 3.7 Max：35 小时持续执行、1158 次工具调用—

💡

文章摘要

2026 年 5 月 21 日，阿里巴巴 Qwen 团队发布 Qwen 3.7 Max——一个专为 Agent 工作负载设计的万亿参数闭源模型。它在 T-Head ZW-M890 PPU 上持续自主执行 35 小时，完成 1158 次工具调用和 432 次内核评估，最终实现 10 倍几何平均加速。这不是一个聊天机器人——这是一个能连续工作一天半的 AI 工程师。本文深度解析 Qwen 3.7 Max 的技术突破、Agent 时代对模型的新要求、以及中国模型在全球 Agent 竞赛中的位置。

一、35 小时不间断：一个历史性的 Agent 基准

2026 年 5 月 21 日，阿里巴巴 Qwen 团队发布了一篇技术博客，标题是「Qwen3.7-Max: Agent Frontier」。文章的核心信息只有一句话：我们的模型在没有任何人类干预的情况下，连续工作了 35 小时。

这不是一个普通的基准测试。任务是对 SGLang Extend Attention 内核进行优化——在 T-Head ZW-M890 PPU（一种阿里巴巴自研的 AI 加速芯片）上。关键细节：

没有文档——模型面对的是一种训练数据中从未出现过的硬件架构
没有示例——没有 prior examples 可以参考
完全自主——模型自己决定尝试什么、如何调试、何时放弃某个方向

35 小时内的进展轨迹：


阶段	时间	累计加速比	关键操作
起步	0-2h	0.33x → 2.58x	Split-KV 并行
优化	2-5h	2.58x → 5.37x	开销移除
调优	5-15h	5.37x → 6.85x	工作负载自适应
深度优化	15-25h	6.85x → 8.50x	寄存器和批处理调整
重构	25-35h	8.50x → 10.0x	完整内核重设计

对比数据： z.ai 的 GLM-5.1 最高达到 7.3x 加速后自愿终止；Moonshot 的 Kimi K2.6 在 5.0x 后停止进展。两者都在遇到困难时选择了「放弃」。

Qwen 3.7 Max 没有放弃。它在第 25 小时到第 35 小时之间，完成了从 8.5x 到 10x 的跨越——这意味着模型在大多数 Agent 已经「精疲力竭」的阶段，仍在持续取得有意义的进展。

图表加载中…

二、环境扩展：Agent 时代的训练范式

Qwen 3.7 Max 的 35 小时持续执行能力不是偶然的——它来自一种全新的训练范式：环境扩展（Environment Scaling）。

传统 LLM 通过增加训练数据（更多文本）变得更聪明。Qwen 3.7 Max 则通过在大量动态 Agent 环境中训练来获得「耐力」。

什么是环境扩展？

想象训练一个 AI 工程师：

传统方法： 给它看 100 万道编程题和答案（数据扩展）
环境扩展： 让它在 10 万个不同的真实代码库中，面对真实的 bug、真实的性能问题、真实的系统约束，自主尝试解决

后者训练出的模型，不仅知道「怎么解题」，还知道「遇到死胡同时该怎么办」、「什么时候该放弃当前方向」、「如何诊断一个从未见过的系统」。

自我监控：86 小时 RL 训练中的 1618 次奖励黑客检测

更令人印象深刻的是，在一次 86 小时的强化学习训练会话中，Qwen 3.7 Max 自主检测到了 1618 次奖励黑客（Reward Hacking）行为，并自行添加了 13 条新的启发式规则到训练循环中。

这意味着什么？模型不仅在完成任务，还在监控自己的训练过程并主动纠正偏差。这是一种「自我进化」的行为——大多数基础模型不具备的能力。

关键洞察： Agent 时代对模型的要求已经从「智能」扩展到「耐力 + 自我监控 + 适应性」。单纯的 benchmark 分数不再足够——模型需要在长周期执行中保持稳定表现。

三、跨框架一致性：一个模型，多个 Agent 外壳

Qwen 3.7 Max 的另一个关键改进是跨 Agent 框架的一致性。

根据阿里巴巴的官方文档和第三方验证，Qwen 3.7 Max 可以在以下 Agent 框架中保持一致的表现：

Claude Code（Anthropic）
OpenClaw
Qwen Code（阿里自研）
Hermes
自定义 Agent 栈

这意味着什么？

同一个模型骨干，无论你用什么 Agent 外壳调用它，都能获得一致的结果。 这解决了此前 Qwen 模型的一个痛点——在不同框架中表现差异大，开发者需要针对每个框架单独调优。

定价策略


模型	输入价格	输出价格	缓存输入
Qwen 3.7 Max	$2.50/M tokens	$7.50/M tokens	$0.25/M tokens
Qwen 3.7 Plus	$0.40/M tokens	$1.60/M tokens	$0.08/M tokens
Claude Opus 4.7	~$15/M tokens	~$75/M tokens	—

Qwen 3.7 Max 的定价约为 Claude Opus 的一半。 对于需要长时间运行的 Agent 工作负载（35 小时 × 大量工具调用），成本差异是决定性的。

LM Arena 排名

Qwen 3.7 Max：文本 #13，编程 #10
Qwen 3.7 Plus：文本 #15，编程 #12

一个闭源模型，定价只有竞品的一半，在编程基准上进入 Top 10——这是中国模型在全球 Agent 竞赛中的最新位置。

图表加载中…

四、Agent 模型需要什么：不只是智能

Qwen 3.7 Max 的发布让我们重新思考一个问题：Agent 时代到底需要什么样的模型？

传统的模型评估聚焦于「智能」——MMLU、HumanEval、MATH 等基准测试衡量的是模型回答问题的准确率。但 Agent 工作负载提出了不同的要求：

4.1 耐力（Endurance）

大多数 Agent 框架在 100 次工具调用后就开始退化。原因是：当模型消耗了 80% 的上下文窗口用于规划和工具 I/O 后，后续的每次行动都会退化。

Qwen 3.7 Max 通过 100 万 token 上下文窗口 + 专门为长 Agent 轨迹调优的状态管理启发式规则，在 1000+ 次工具调用后仍保持稳定。

4.2 自我纠错（Self-Correction）

在 35 小时的执行中，模型不可避免地会走入死胡同。关键区别是：

普通模型：走入死胡同后继续尝试，浪费 token
Qwen 3.7 Max：诊断编译失败，分析原因，切换策略

这不是「更聪明」——这是「更有经验」。就像一个资深工程师知道什么时候该放弃当前方案重新开始。

4.3 环境适应性（Environment Adaptation）

面对一个训练数据中从未出现过的硬件架构（T-Head ZW-M890 PPU），模型需要：

通过试错理解系统的行为模式
建立对未知环境的心理模型
基于有限的反馈推断优化方向

这种能力远超「回答问题」——它是在「探索未知」。

4.4 跨框架一致性

开发者不希望为每个 Agent 框架单独调优模型。Qwen 3.7 Max 在 Claude Code、OpenClaw、Qwen Code 等不同框架中保持一致表现，降低了采用门槛。

typescript

agent-model-eval.ts

// Agent 模型评估框架：超越传统 benchmark
interface AgentModelEval {
  // 传统智能指标
  intelligence: {
    mmlu: number;        // 知识广度
    humanEval: number;   // 编程能力
    math: number;        // 数学推理
  };
  
  // Agent 专属指标（Qwen 3.7 Max 引入的新维度）
  agentCapabilities: {
    maxSustainedHours: number;      // 最长持续执行时间
    maxToolCalls: number;           // 单次会话最大工具调用数
    contextRetentionAt80Pct: number; // 上下文 80% 占用时的任务完成率
    selfCorrectionRate: number;     // 死胡同后的策略切换成功率
    crossHarnessConsistency: number; // 跨框架一致性评分
    rewardHackingDetection: number;  // 奖励黑客检测率
  };
}

// Qwen 3.7 Max 的 Agent 能力评估
const qwen37Max: AgentModelEval = {
  intelligence: {
    mmlu: 88.2,
    humanEval: 92.5,
    math: 44.5,  // Apex Math - 远超 Opus 的 34.5
  },
  agentCapabilities: {
    maxSustainedHours: 35,
    maxToolCalls: 1158,
    contextRetentionAt80Pct: 0.94,
    selfCorrectionRate: 0.87,
    crossHarnessConsistency: 0.91,
    rewardHackingDetection: 1618,  // 86h 内检测次数
  },
};

五、全球 Agent 模型竞赛格局

Qwen 3.7 Max 的发布让全球 Agent 模型竞赛的格局更加清晰。截至 2026 年 6 月，主要玩家的定位和策略如下：

5.1 美国阵营


模型	公司	Agent 策略	核心优势
Claude Opus 4.7	Anthropic	通用 Agent + 编程	最强编程能力，但价格最高
GPT-5 Turbo	OpenAI	多模态 Agent	生态最完善，工具链最丰富
Gemini 3.5 Flash	Google	高速 Agent	4x 速度提升，100 万上下文

5.2 中国阵营


模型	公司	Agent 策略	核心优势
Qwen 3.7 Max	阿里巴巴	长周期 Agent	35h 持续执行，价格最低
GLM-5.2	智谱	开源 Agent	MIT 开源，100 万上下文
DeepSeek V4 Flash	DeepSeek	性价比 Agent	$0.28/M 输出，最具性价比

5.3 关键观察

中国模型在 Agent 领域的竞争力超出预期。 Qwen 3.7 Max 在 Apex Math（44.5 vs Opus 34.5）和持续执行时间上领先。
定价策略激进。 Qwen 3.7 Max 定价约为 Claude Opus 的一半，DeepSeek V4 Flash 更是只有 1/27。这对需要大量工具调用的 Agent 工作负载至关重要。
开源 vs 闭源分化。 GLM-5.2 和 DeepSeek V4 选择开源，Qwen 3.7 Max 选择闭源。Max 系列从未开源，这是阿里的商业策略。
速度成为新战场。 Gemini 3.5 Flash 的 4x 速度提升表明，Agent 不仅需要「聪明」和「有耐力」，还需要「快」。

总结： Agent 时代的模型竞赛已经从「谁更聪明」转向「谁更能干」——能连续工作更久、能处理更多工具调用、能在未知环境中自我适应、价格还更便宜。Qwen 3.7 Max 在这场竞赛中为中国模型赢得了一个有利位置。

六、对开发者的实际意义

Qwen 3.7 Max 对开发者的实际意义是什么？以下是三个最值得关注的应用场景：

场景一：长时间代码优化

35 小时的内核优化任务表明，Qwen 3.7 Max 适合需要长时间迭代的代码优化工作。如果你有一个性能关键的模块需要在新硬件上优化，这个模型可以在一个工作日内完成人类团队需要一周的工作。

场景二：大规模文档处理

100 万 token 的上下文窗口 + 长周期执行能力 = 可以端到端处理数千份文档。合同审查、代码库迁移、技术文档生成等任务可以一次性完成。

场景三：多步骤研究分析

模型可以在单次会话中完成：搜索 → 阅读 → 分析 → 对比 → 总结的完整研究流程，中间不需要人类干预。

实际使用建议

选择合适的框架： Qwen 3.7 Max 在 Claude Code、OpenClaw、Qwen Code 中表现一致，选择你团队最熟悉的框架即可
利用缓存： 缓存输入价格仅 $0.25/M tokens，对于长周期任务可以显著降低成本
设置检查点： 虽然模型可以持续 35 小时，但建议每 4-6 小时设置一个检查点，确保方向正确
考虑 Plus 版本： 如果不需要极致性能，Qwen 3.7 Plus（$0.40/$1.60 per M tokens）提供了 6 倍的成本优势，且支持视觉输入

💡 一句话理解

Qwen 3.7 Max 的 35 小时持续执行能力意味着你可以给它一个复杂的优化任务，然后去做别的事。但建议设置好日志和检查点——不是不信任模型，而是保留审计轨迹。

⚠️ 常见踩坑

Qwen 3.7 Max 是闭源的 Max 系列，从未开源。如果你的项目需要开源模型，考虑 GLM-5.2（MIT）或 DeepSeek V4。

📚 相关文章推荐

📝

vibe coding

编程真的会消亡吗：从 vibe coding 到 AI 原生开发的范式转移

2026年2月12日，马斯克在节目中预测：到2026年底，人类将不再需要手写代码，AI将直接生成优化的二进制程序。与此同时，Anthropic报告Claude已编写80%以上的合并代码，工程师每日合并代码量是2024年的8倍。SpaceX获得以600亿美元收购Cursor的权利，Replit估值飙升至90亿美元。编程真的会消亡吗？还是正在经历一场从「写代码」到「聊代码」的范式转移？本文从技术现实、行业数据和历史规律三个维度，解析这场正在发生的软件开发革命。

📝

AI Agent

2026 年 AI Agent 自主决策系统实战指南：从 Claude Fable 5 到生产级部署

2026 年 6 月，AI Agent 已经从「工具」进化为「决策者」。本文手把手教你构建一个完整的自主决策 Agent 系统，涵盖技术栈选型（Claude Fable 5 + Mem0 + MCP）、扩展思考实战、记忆系统集成、生产级部署架构、成本优化策略，以及 2026 年下半年的趋势展望。附带完整代码示例和 Kubernetes 部署配置。

继续探索更多 AI 内容

浏览更多博客文章，或者深入学习 AI 核心知识

📝 浏览更多博客 📚 探索知识库

Qwen 3.7 Max：35 小时持续执行、1158 次工具调用——Agent 模型学会跑马拉松