前置阅读收获
2026 年 5 月,阿里巴巴通义千问团队发布 Qwen3.7-Max,在多项硬核基准上实现了对 Claude Opus 4.6 的对标与超越。 GPQA Diamond 得分 92.4(Opus 4.6 为 91.3),HLE 得分 41.4(Opus 4.6 为 40),HMMT 2026 Feb 得分 97.1(Opus 4.6 为 96.2)。这些不是普通的能力测试,而是面向博士级科学推理和人类极限竞赛的深度评估。
在 Agentic 场景 中,Qwen3.7-Max MCP-Atlas 76.4 分超越 Opus 4.6 Max 的 75.8,Kernel Bench L3 实现 1.98 倍中位加速和 96% 的胜率(注:Opus 4.6 Max 在该基准的加速比为 2.63x/98%),跨测试框架泛化能力在 QwenClawBench 和 CoWorkBench 上均表现一致。
本文将从 架构推断、推理能力、Agent 泛化、长上下文建模、训练方法论、与主流竞品的对比、开发者选型建议 七个维度,全面拆解 Qwen3.7-Max 的技术体系。
建议先阅读本站的「大语言模型训练全流程」和「LLM 评测体系」文章,了解预训练流程和主流评测基准的设计逻辑,这将帮助你更好地理解 Qwen3.7-Max 在各基准上的表现。
本文所有 benchmark 数据来自 Qwen 官方博客、OpenRouter 和 BenchLM 的公开记录。Qwen3.7-Max 是闭源模型,部分架构细节尚未公开披露,文中基于官方信息和技术社区分析进行推断,不代表官方确认信息。
一、Qwen3.7-Max 发布背景:为什么这个模型值得单独写一篇文章
Qwen3.7-Max 是阿里巴巴通义千问团队在 2026 年 5 月推出的最新旗舰闭源模型。 它的发布具有三个标志性意义:
第一,在硬核推理基准上首次超越 Opus 4.6。 GPQA Diamond 被公认为当前最具区分度的科学推理评测之一,覆盖物理、化学、生物等高难度学科。Qwen3.7-Max 以 92.4 分首次突破 92 大关,超越 Opus 4.6 的 91.3。HLE(Human Level Exam)得分 41.4 也超过了 Opus 4.6 的 40。这意味着在「最难的题」上,Qwen3.7-Max 已经站到了全球最前列。
第二,Agentic 能力与推理能力同步提升。 很多模型在纯推理基准上得分高,但一旦进入实际 Agent 场景(调用工具、使用 MCP、自主规划任务),表现就会大幅下降。Qwen3.7-Max 在 MCP-Atlas、MCP-Mark、Skillsbench 等多个 Agent 基准上均达到或接近最佳水平,说明其 推理能力不是「纸上谈兵」,而是能转化为实际的工具使用能力。
第三,跨测试框架泛化能力得到验证。 一个长期困扰 Agentic 模型的问题是「测试框架过拟合」——模型在某个特定 Agent 框架(如 Claude Code)上表现好,换到另一个框架(如 OpenClaw 或 Qwen Code)就大幅退化。Qwen3.7-Max 在 QwenClawBench 和 CoWorkBench 两个独立基准上均表现一致,说明它 学到了真正的任务求解能力,而非特定框架的使用技巧。
这三点加在一起,使 Qwen3.7-Max 成为 2026 年上半年最值得关注的模型发布之一。
理解 Qwen3.7 系列的定位,需要先回顾 Qwen3.6 的架构演进。Qwen3.6-Max Preview 是 1T 总参数的 MoE 模型,而 Qwen3.7-Max 在此基础上进一步升级了推理能力和 Agentic 泛化能力。
Qwen3.7-Max 是闭源模型,目前仅通过阿里云百炼 API 和 Qwen 自有平台提供访问。无法像开源模型那样直接检查权重和架构代码,因此部分技术细节基于官方博客和技术社区分析推断。
二、架构推断:从 Qwen3.6 到 Qwen3.7 的技术演进
Qwen3.7-Max 的架构延续了 Qwen3.6 系列的核心设计思路,但在多个关键维度上进行了升级。
1. MoE 稀疏架构的持续优化
Qwen3.6-Max Preview 采用稀疏 MoE 架构,总参数约 1 万亿(1T),每次前向传播激活约数百亿参数。MoE 模型的劣势在于「总参数量大但计算量小」——每次推理只激活部分专家网络,因此在推理时显存需求不高。但 MoE 也有显著缺点:所有专家参数都需要加载到显存中(即使只激活部分参数,也需要加载全部权重),这导致 MoE 模型几乎无法在消费级硬件上运行。不过对于云端部署的场景,MoE 的稀疏架构可以显著降低每次推理的计算成本。
Qwen3.7-Max 作为同一代际的升级版本,大概率延续了 MoE 稀疏架构,并在多个关键维度上做了针对性改进。这些改进不是简单地在原有架构上增加参数,而是在路由策略、专家容量和信息流动方面进行了系统性优化。
- 路由器优化:提升了 Top-K 专家选择的精度,减少「专家负载不均衡」问题
- 专家容量调整:可能增加了专家的总数量和每个专家的容量,提升知识表征能力
- 跨专家信息流动:改进了专家之间的知识共享机制,使不同专家能更好地协同工作
2. 显式思维链推理的集成
Qwen3.7-Max 采用了 显式 Chain-of-Thought(CoT)推理,即模型在给出最终答案之前会先生成一段推理过程。这种设计的优势非常明显:
- 复杂推理题得分大幅提升:GPQA、HLE 等基准需要多步推理,CoT 让模型有「思考空间」
- 可解释性增强:开发者可以看到模型的推理链条,便于调试和信任评估
- 代价是更高的 token 消耗和更长的延迟:思维链推理会产生额外的输出 token
3. 长上下文能力
根据 BenchLM 的记录,Qwen3.7-Max 支持 1M token 的上下文窗口。这在 2026 年属于第一梯队,与 Claude Opus 4.6(1M)和 Gemini 3.5 Pro(1M)处于同一水平。长上下文对于以下场景至关重要:
- 大型代码库的理解和分析
- 长文档的摘要和问答
- 多轮复杂 Agent 任务的上下文保持
Qwen3.7-Max 继承了 Qwen3.6 系列的 MoE 架构和稀疏注意力设计。理解 Qwen3.6 的技术路线有助于推测 Qwen3.7 的底层架构。
以下架构分析基于 Qwen3.6 的官方技术报告和 Qwen3.7 的基准表现进行推断,不代表官方确认的架构规格。闭源模型的精确参数量和架构细节需等待官方技术报告发布。
三、推理能力深度解析:GPQA、HLE 与数学基准
Qwen3.7-Max 在推理基准上的表现是其最受关注的亮点。以下是关键数据的对比分析:
GPQA Diamond(博士级科学推理):92.4 分
GPQA Diamond 包含 546 道由领域专家编写的高难度选择题,覆盖物理、化学、生物等学科。92.4 分意味着在 546 道题中答对了约 504 道。 这个成绩的含金量在于:
- 人类博士级别专家在该基准上的平均表现约 65-70 分
- Opus 4.6 Max 得分为 91.3,Qwen3.7-Max 领先 1.1 分
- Kimi K2.6 Thinking 得分为 90.5,DeepSeek V4 Pro Max 为 90.1
HLE(人类极限考试):41.4 分
HLE 是一套面向人类高智商群体的极限测试,包含数学、逻辑、编程等高难度题目。41.4 分超越了 Opus 4.6 的 40 分,是首个突破 41 分大关的模型。
HMMT 2026 Feb(哈佛-麻省理工数学竞赛模拟):97.1 分
这个基准模拟了高中生级别的数学竞赛题目。97.1 分表明模型在 结构化数学推理 上已达到极高水平。
IMOAnswerBench(国际数学奥林匹克解答):90 分
虽然数学基准不是 Qwen3.7-Max 的最强项,但 90 分已经非常接近 DeepSeek V4 Pro 的 89.8 分。结合 GPQA 的领先表现,可以判断 Qwen3.7-Max 在科学推理上的全面性优于竞品。
Apex(高级推理综合基准):44.5 分
Apex 测试模型在多个推理维度上的综合表现。Qwen3.7-Max 以 44.5 分大幅领先 DeepSeek V4 Pro 的 38.3 分。
关注模型在「最难的题」上的表现,而非平均分。GPQA Diamond 和 HLE 是当前区分度最高的两个基准,能真实反映模型的推理天花板。
基准得分不代表模型在所有场景下的实际表现。GPQA 测试的是封闭题目的选择能力,不代表模型能自主解决开放性科学问题。HLE 的题目虽然难,但仍然是预设题目,不能涵盖真实世界的全部复杂性。
四、Agentic 能力:从工具使用到自主代码优化
如果说推理能力决定了模型的「智商」,那么 Agentic 能力就决定了模型的「执行力」。Qwen3.7-Max 在 Agent 场景中的表现同样值得关注。
1. MCP 工具使用能力
MCP(Model Context Protocol)是 2026 年最主流的模型工具使用协议。Qwen3.7-Max 在两个 MCP 基准上的表现:
- MCP-Atlas:76.4 分(超越 Opus 4.6 Max 的 75.8 分)
- MCP-Mark:60.8 分(领先 GLM-5.1 的 57.5 分)
MCP-Atlas 测试模型使用 MCP 工具完成复杂多步任务的能力,76.4 分意味着模型能够 正确地选择工具、组织调用顺序、处理工具返回结果。
2. Skillsbench 技能使用
Skillsbench 测试模型在多种预设技能(如搜索、计算、代码执行)上的使用准确率。Qwen3.7-Max 得分 59.2,领先 Kimi K2.6 的 56.2 分。
3. Kernel Bench L3:GPU 代码自主优化
这是 Qwen3.7-Max 最令人印象深刻的 Agent 能力展示之一。Qwen 团队让模型自主优化 GPU 内核代码,在超过 35 小时的持续迭代中,Qwen3.7-Max 实现了 10 倍于标准基线的加速,远超 GLM-5.1(7.3 倍)、Kimi K2.6(5.0 倍)和 DeepSeek V4 Pro(3.3 倍)。
这个实验的关键意义在于:
- 模型不是简单地找到一个优化方案就停止,而是 持续迭代超过 30 小时
- 它能够在 从未接触过的硬件上 找到有意义的优化
- 中位加速 1.98 倍、96% 的胜率(即 96% 的问题上都比 torch.compile 更快)
这证明了 Qwen3.7-Max 在 自主探索和持续优化 方面的能力,而不仅仅是「一次性回答问题」。
Agentic 能力的评估正在从「能不能用工具」转向「能不能自主完成复杂任务」。关注 MCP 基准和 Kernel Bench 的结果,它们分别代表工具使用和自主代码优化能力。
Agent 基准仍在快速演化中。MCP-Atlas、MCP-Mark 等基准的覆盖面和区分度还在提升,不同基准之间可能存在测量偏差。跨基准综合评估比单一基准更有参考价值。
五、跨测试框架泛化能力:为什么这很重要
一个长期被忽视但极其重要的问题是:Agent 模型是否只是在特定的测试框架上「学会了套路」?
想象一下:一个学生在某本练习册上反复刷题,考试时遇到同类型的题目就能拿高分,但换一套出题风格就完全不行了。这就是所谓的 测试框架过拟合(Scaffold Overfitting)。
在 Agent 领域,这个问题更加严重。不同 Agent 框架(如 Claude Code、OpenClaw、Qwen Code)在以下方面存在差异:
- 工具的名称和调用方式
- 错误处理和重试机制
- 上下文组织格式
- 任务分解的方式
如果一个模型只在 Claude Code 上表现好,换到 OpenClaw 就大幅退化,那它的 Agent 能力就是 框架绑定的,而非 通用能力。
Qwen3.7-Max 的跨框架泛化表现:
Qwen 团队采用了 Cross-Harness Generalization 训练方法,在多种 Agent 框架上混合训练。结果是:
- 在 QwenClawBench 和 CoWorkBench 两个独立基准上表现一致
- 在 Claude Code、OpenClaw 和 Qwen Code 三种不同框架上评测时,分数差异极小
- 这说明模型学到了 真正的任务求解策略,而非特定框架的使用技巧
训练方法论:
Qwen 团队的 Cross-Harness 训练包含以下关键步骤:
- 在多种 Agent 框架上收集训练数据
- 对相同任务在不同框架上的表现进行对比学习
- 使用框架无关的奖励信号来评估模型输出
- 在推理时随机切换框架,测试泛化能力
这种方法虽然在训练成本上增加了约 30-40%,但带来的泛化收益是值得的。
如果你在评估一个 Agent 模型,务必在多个测试框架上验证其表现。单一框架的高分可能是过拟合,跨框架一致才是真能力。
QwenClawBench 和 CoWorkBench 的测试方法和覆盖面仍在演进中。不同框架的测试难度可能不完全等价,跨框架比较时需要注意这一点。
六、与主流竞品对比:Qwen3.7-Max vs Opus 4.6 vs GLM-5.1 vs K2.6
以下是 Qwen3.7-Max 与主要竞品在关键基准上的对比:
| 基准 | Qwen3.7-Max | Opus 4.6 Max | GLM-5.1 | K2.6 Thinking |
|---|---|---|---|---|
| GPQA Diamond | 92.4 | 91.3 | — | 90.5 |
| HLE | 41.4 | 40 | — | — |
| HMMT 2026 Feb | 97.1 | 96.2 | — | — |
| MCP-Atlas | 76.4 | 75.8 | — | — |
| MCP-Mark | 60.8 | — | 57.5 | — |
| Kernel Bench L3 | 1.98x/96% | 2.63x/98% | — | — |
| MRCR-v2 128k | 90.4 | 84.0 | — | — |
| Skillsbench | 59.2 | — | — | 56.2 |
| IFBench | 79.1 | — | — | 77.0 |
关键发现:
- 推理基准全面领先:GPQA、HLE、HMMT 三项硬核推理全部排名第一
- Agent 能力处于第一梯队:MCP-Atlas 和 Skillsbench 均领先,但 Kernel Bench 上 Opus 4.6 Max 仍然更强
- 长上下文检索能力突出:MRCR-v2 128k 得分 90.4,大幅领先 Opus 4.6 Max 的 84.0
- 指令跟随能力强:IFBench 79.1 分领先 K2.6 的 77.0
Qwen3.7-Max 的定位: 通用推理+Agentic 能力双强型模型,适合需要复杂推理和工具使用的综合场景。
Opus 4.6 Max 的定位: 代码优化和特定 Agent 场景的强者,在 Kernel Bench 上仍有优势。
GLM-5.1 的定位: 多模态 Agent 能力突出,但纯推理基准的数据有限。
Kimi K2.6 的定位: 超长上下文和深度研究场景的优选。
竞品对比全景图:
模型选择没有绝对的最优,只有最适合你的场景。关注与你的使用场景最相关的基准分数,而非总体排名。
以下对比数据来自不同来源的公开评测,可能存在评测方法和版本的差异。Opus 4.6 和 GLM-5.1 的最新版本可能在某些基准上已有更新,建议以官方最新数据为准。
七、开发者选型建议与未来展望
对于开发者来说,选择 Qwen3.7-Max 还是其他模型,取决于具体的使用场景:
适合选择 Qwen3.7-Max 的场景:
- 需要处理高难度的科学推理问题(科研辅助、学术论文理解)
- 构建需要复杂工具调用的 Agent 应用
- 需要在多个 Agent 框架间迁移的场景(跨框架泛化能力强)
- 长上下文问答和文档分析(1M 上下文窗口,MRCR-v2 表现优异)
可能更适合其他模型的场景:
- 需要本地部署:考虑 Qwen3.6-27B 等开源模型
- 需要最强的代码优化:Opus 4.6 Max 在 Kernel Bench 上仍有优势
- 需要多模态理解:GLM-5.1 的多模态能力更突出
实战一:通过阿里云百炼 API 调用 Qwen3.7-Max
以下是使用 Python 调用 Qwen3.7-Max 的标准方式。需要先在阿里云百炼平台获取 API Key。
import os
from http import client
import json
# 设置 API Key(从百炼平台获取)
DASHSCOPE_API_KEY = os.environ.get('DASHSCOPE_API_KEY', 'your-api-key-here')
def call_qwen37_max(prompt: str, max_tokens: int = 4096):
"""调用 Qwen3.7-Max 进行推理(使用 OpenAI 兼容 API)"""
url = 'dashscope.aliyuncs.com'
headers = {
'Content-Type': 'application/json',
'Authorization': f'Bearer {DASHSCOPE_API_KEY}',
}
payload = {
'model': 'qwen-max',
'messages': [{'role': 'user', 'content': prompt}],
'max_tokens': max_tokens,
'temperature': 0.7,
'top_p': 0.95,
}
conn = client.HTTPSConnection(url)
conn.request('POST', '/compatible-mode/v1/chat/completions',
body=json.dumps(payload), headers=headers)
resp = conn.getresponse()
data = json.loads(resp.read().decode())
return data['choices'][0]['message']['content']
# 示例:GPQA 级别科学推理
result = call_qwen37_max(
'解释量子纠缠中的贝尔不等式违反,并说明为什么经典物理无法解释这一现象。'
)
print(result)# 拉取 Qwen3.6-27B GGUF 量化版本
ollama pull qwen3.6:27b
# 运行基准测试脚本
python benchmark_qwen.py \
--model qwen3.6:27b \
--tasks gpqa,hle,ifbench \
--num-samples 100 \
--max-tokens 2048
# 查看结果
cat results/qwen3.6-27b-benchmark.json选型时先明确核心需求场景:需要推理选 Qwen3.7-Max,需要代码优化看 Opus 4.6 Max,需要多模态看 GLM-5.1,需要超长上下文看 Kimi K2.6。不要只看总分,要看分项。
Qwen3.7-Max 是闭源模型,访问仅限阿里云百炼 API。如果你有本地部署需求,考虑 Qwen 系列的开源版本(如 Qwen3.6-27B)。API 定价可能随时调整,以百炼平台实时价格为准。
八、未来展望与扩展阅读
Qwen3.7-Max 的发布标志着中国大模型在通用推理能力上已具备全球竞争力。随着更多开源版本的发布和 API 成本的降低,开发者将有更多选择。
值得关注的趋势:
- 显式思维链推理正在成为旗舰模型的标配——从「直接回答」到「先推理再回答」
- Agent 泛化能力从「能用工具」转向「能自主完成任务」——35 小时自主任务是新的里程碑
- 跨框架泛化训练正在成为新的训练方法论标准——Qwen 的 Cross-Harness 方法值得业界关注
- 1M+ 上下文窗口成为旗舰模型的基线要求——短上下文模型正在被淘汰
扩展阅读:
- 「大语言模型训练全流程」:了解 Qwen3.7-Max 背后的预训练流程
- 「MoE 混合专家架构」:理解 Qwen3.7-Max 可能采用的稀疏架构
- 「LLM 评测体系」:理解 GPQA、HLE 等基准的设计逻辑
- 「LLM 推理优化」:了解如何在生产环境中高效部署大模型
关注 Qwen3.7 后续的开源版本发布和 API 定价更新。显式思维链推理和跨框架泛化训练正在成为行业新标准,值得长期跟踪。
以下趋势预判基于当前行业动态。技术演进存在不确定性,应以官方最新发布为准。