前置阅读收获:三十秒了解本文核心价值
在深入阅读之前,先明确从本文能获得什么:
你将掌握的关键认知
- MiniMax M3 的三大核心能力:前沿 Coding(SWE-Bench Pro 接近 Claude Opus 4.7)、1M Token 超长上下文(MSA 稀疏注意力架构)、原生多模态(文本+图片+视频混合训练,100 万亿 Token 训练数据)
- MSA 架构的技术突破:在 100 万 Token 上下文下,单 Token 计算量仅为上一代的 1/20,推理效率大幅提升
- 定价策略对比:API 百万 Token 输入 4.2 元(限时 5 折),订阅 Plus 49 元/月提供 6 亿 Token(约 Claude Pro 的 5 倍)
- 开源策略的深远影响:MIT License 开源,填补国内开源前沿模型空白,国际开发者生态渗透
- MiniMax IPO 战略:科创板 + 港股双平台布局,建立国内人民币定价权
本文所有数据来源于 MiniMax 官方公告(2026 年 6 月 1 日)、新浪财经、经济参考报、Lushbinary 对比评测、BenchLM.ai 排行榜,可交叉验证。
如果你关注中国 AI 模型的竞争力,第二章「MSA 稀疏注意力架构详解」和第三章「1M 上下文的工程意义」是核心技术章节。如果你关注商业策略,直接跳到第六章「开源策略与 IPO 布局」。
MiniMax M3 的性能数据均为厂商自报,尚未经第三方独立复测。SWE-Bench Pro 是 2026 年新引入的更难评测集,各家数据口径不完全一致,需等待第三方独立验证。
一、事件概述:中国 AI 的又一次旗舰发布
2026 年 6 月 1 日,上海稀宇科技(MiniMax)正式发布新一代通用基础模型 MiniMax M3。这是 MiniMax 在 M2.7(2026 年 3 月)之后不到三个月的又一次重大升级,也是中国 AI 模型在 2026 年密集发布潮中的关键一子。
M3 的定位非常明确:首个同时具备前沿 Coding 能力、100 万 Token 超长上下文、原生多模态三项核心能力的开源大模型。在 MiniMax 发布 M3 的前一天(5 月 31 日),公司宣布已聘请专业顾问就符合在科创板上市条件提供咨询——技术发布与资本运作同步推进,信号意味明显。
M3 的核心性能数据(厂商自报):
| 评测集 | MiniMax M3 | 主要竞品 |
|---|---|---|
| SWE-Bench Pro | 59% | GPT-5.5、Gemini 3.1 Pro(低于 M3),Opus 4.7(高于 M3) |
| SWE-Bench Verified | ~85% | Claude Opus 4.8(88.6%),Qwen3.7 Max(~84%) |
| SVG-Bench | 超越 Opus 4.7 | SVG 生成性能基准 |
| BrowseComp | 超越 Opus 4.7 | 自主网页浏览基准 |
值得关注的细节:M3 是「open-weights」(开放权重)模型,采用 MIT License 开源。这意味着开发者可以自由下载、修改、商用,而不仅仅是通过 API 调用。这与 OpenAI、Anthropic 的封闭策略形成鲜明对比。
理解 M3 的关键不在于单项评测分数,而在于它是首个将三项前沿能力整合到一个开源模型中的产品——这在 2026 年 6 月的时间点上,全球独此一家。
所有性能数据均为 MiniMax 自报,在自有基础设施上运行。SWE-Bench Pro 是 2026 年新评测集,第三方独立复测尚未完成,数据需谨慎参考。
一.5、M3 发布后的市场反应与行业影响
M3 发布后,AI 行业在 24 小时内出现了密集的连锁反应,这一速度本身就说明了 M3 的影响力。
开发者社区的即时反馈:在 X(Twitter)和 Hacker News 上,M3 成为当天最热门的 AI 话题。开发者对 M3 的关注点集中在三个方向——首先是 MSA 架构的技术细节,许多开发者对 KV-Block 选择机制表示兴趣,认为这是稀疏注意力方向最有前景的方案之一;其次是 1M 上下文在代码仓库场景中的实际应用价值,有开发者立即开始测试 M3 在 50 万+ Token 代码库上的理解能力;最后是开源策略的深远影响,MIT License 使得 M3 成为国际开发者社区中最受关注的中国模型。
资本市场的反应:MiniMax 在发布 M3 的前一天宣布科创板辅导,两天后智谱也宣布港股+A 股双平台上市。中国 AI 模型的「技术发布 + 资本运作」同步推进正在成为一种模式。东方证券在 M3 发布当天发布的研报中,将 AI Coding 市场的总潜在市场(TAM)估算为 4000 亿美元,这一数字远超此前市场普遍预期的 1000-2000 亿美元。
竞争对手的动态:智谱在 M3 发布次日(6 月 2 日)即宣布 GLM-5.1 的开源计划,这被业界视为对 M3 的直接回应。月之暗面也在社交媒体上暗示将有"重大更新"。中国 AI 模型厂商之间的竞争正在从"能力比拼"升级为"生态竞争"——不只是谁的模型更强,而是谁的开源策略、定价策略和开发者工具链更能吸引用户。
如果你在关注中国 AI 模型的商业竞争格局,M3 的发布是一个关键的观察窗口——它同时触发了技术讨论、资本运作和竞争对手回应,这是中国 AI 行业发展的重要信号。
行业 TAM 估算(4000 亿美元)基于替代程序员人力成本的假设,这是一个高度乐观的上限估算。实际市场规模可能在 500-1000 亿美元区间。
二、MSA 稀疏注意力架构:1M 上下文的技术基础
支撑 M3 三项能力合一的核心技术是其自研的MiniMax Sparse Attention(MSA)稀疏注意力架构。这是理解 M3 为何能在 100 万 Token 规模下保持高效的关键。
传统全注意力机制(Full Attention)的致命问题:在 Transformer 中,每个 Token 需要与序列中所有其他 Token 计算注意力,复杂度为 O(n²)。当 n=1,000,000 时,n²=10¹²,这在计算和内存上都是不可承受的。
MSA 的核心思路——KV-Block 选择:不计算所有 Token 对的注意力,而是通过一种智能的 KV 块选择机制,只计算与当前 Token 最相关的部分 KV 对。这类似于你在读一本 1000 页的书时,不需要每次都回顾所有 1000 页——你只需要回顾与当前段落最相关的那些页。
MSA 与 Flash Attention 的区别:
- Flash Attention:仍然计算完整注意力矩阵,只是通过分块计算和重计算优化内存访问效率
- MSA:从根本上减少需要计算的注意力对数量——只计算「必要的」注意力,跳过「不相关的」Token 对
MiniMax 官方披露的数据:在 100 万 Token 上下文规模下,M3 的单 Token 计算量仅为上一代模型(M2.7,使用全注意力)的约1/20。这意味着 M3 不仅支持更大的上下文窗口,而且在长上下文下的推理速度和成本都远优于传统架构。
# 概念演示:全注意力 vs 稀疏注意力的计算量对比
import numpy as np
def full_attention_cost(seq_len):
"""全注意力:O(n²) 复杂度"""
return seq_len ** 2
def sparse_attention_cost(seq_len, sparsity_ratio=0.05):
"""稀疏注意力:只计算 sparsity_ratio 比例的注意力对"""
# MSA 通过 KV-Block 选择,只保留最相关的 Token 对
return seq_len ** 2 * sparsity_ratio
seq_lens = [4096, 32768, 100000, 1000000]
print(f"{'序列长度':>10} | {'全注意力':>12} | {'MSA稀疏(5%)':>12} | {'节省比':>8}")
print("-" * 55)
for n in seq_lens:
full = full_attention_cost(n)
sparse = sparse_attention_cost(n, 0.05)
ratio = full / sparse
print(f"{n:>10,} | {full:>12,} | {sparse:>12,} | {ratio:>6.1f}x")
# 在 100 万 Token 时:
# 全注意力:1,000,000,000,000 次计算
# MSA(5%稀疏):50,000,000,000 次计算 → 节省 20xMSA 的核心创新在于「选择性计算」——它不是对所有 Token 一视同仁,而是智能地决定哪些 Token 对需要计算注意力。这与人类阅读时「快速扫读+重点细读」的策略如出一辙。
稀疏注意力的风险在于可能遗漏关键的远距离依赖关系。MSA 的 KV-Block 选择算法必须足够智能,否则在需要精确理解长距离语义关联的任务中(如长文档问答),性能可能下降。
三、1M 上下文的工程意义:为什么这很重要?
100 万 Token 的上下文窗口不是数字游戏——它直接改变了 AI 能解决的实际问题类型。
对比主流模型的上下文窗口:
| 模型 | 上下文窗口 | 等效内容量 |
|---|---|---|
| GPT-5.5 | 128K Token | ~96,000 字(约 1/3 本《红楼梦》) |
| Claude Opus 4.8 | 1M Token | ~750,000 字(约 2.5 本《红楼梦》) |
| MiniMax M3 | 1M Token | ~750,000 字 |
| Kimi K2.6 | 256K Token | ~192,000 字 |
| Qwen3.7-Plus | 256K Token | ~192,000 字 |
1M 上下文的三个关键应用场景:
大型代码仓库理解:一个中型项目的全部源代码可能在 50-100 万 Token 范围内。M3 可以在一次推理中「看到」整个代码库,而不是像传统模型那样需要分块处理、丢失跨文件关联。这正是 M3 在 SWE-Bench Pro 上表现出色的关键原因。
长文档分析与对比:分析一份 200 页的财报、对比多份法律文件、理解整本技术手册——这些任务需要模型同时「持有」大量上下文,而不能只看局部。
多轮 Agent 对话:一个复杂的智能体任务可能涉及数百轮交互,每轮都需要保留历史上下文。MSA 在 1M Token 下计算量仅为上代的 1/20,使得长程 Agent 任务在成本上可行。
但 1M 上下文有一个关键前提:模型必须在长上下文中保持「大海捞针」能力——即从 100 万 Token 中准确找到并理解关键信息的能力。如果模型在长上下文中「迷失」,更大的窗口只会增加噪音而非价值。
| 场景 | 所需 Token 量 | 传统模型的问题 | M3 的优势 |
|---|---|---|---|
中型代码仓库 | 50-100 万 | 分块处理丢失跨文件关联 | 一次推理完整理解 |
长财报/法律文件 | 20-50 万 | 截断丢失关键细节 | 完整输入不截断 |
多轮 Agent 对话 | 10-50 万 | 历史上下文丢失 | 全程保留交互记忆 |
视频理解(多帧) | 50-200 万 | 帧数受限,时序信息丢失 | 完整视频帧序列输入 |
如果你在处理代码仓库或长文档任务,1M 上下文带来的不是「能处理更多数据」,而是「能保持完整的上下文关联」——这是质的变化,不是量的变化。
更大的上下文 ≠ 更好的结果。如果任务只需要 10K Token 的上下文,1M 窗口只会增加计算成本和延迟。选择模型时,上下文窗口要与任务需求匹配。
四、原生多模态训练:从第一步就融合
M3 的「原生多模态」与一些模型的「后融合多模态」有本质区别。
后融合多模态:先训练一个强大的语言模型,然后通过额外的适配层(Adapter)或微调来加入图像/视频理解能力。这种方式的问题在于多模态能力是「补丁」,与核心语言理解能力割裂。
原生多模态:从训练的第一步(Step 0)就开始使用文本、图片、视频的混合数据。M3 的训练数据规模达到 100 万亿 Token,且采用「交错数据」(Interleaved data)——文本和图像等其他模态在序列中交替自然排列。
MiniMax 在技术报告中强调:交错数据对模型性能的提升,比一般认为的更加关键。这意味着多模态训练不能简单理解为「文本 + 图像的简单拼接」,而是要让模型从一开始就学习跨模态的联合表示。
M3 的多模态能力具体包括:
- 图像理解:分析图片内容、提取信息、回答视觉问题
- 视频理解:处理视频帧序列,理解时序变化
- Computer Use(桌面操作):在复杂跨应用环境中,像人一样操作电脑——这是 M3 多模态能力的最高级体现,也是 Agent 任务的终极形态之一
一个震撼的案例:MiniMax 给 M3 一篇 ICLR 2025 杰出论文,让它独立复现。M3 连续运行近 12 小时,全程自主产出 18 次 Commit 与 23 张实验图表,成功跑通核心实验。这不仅展示了编码能力,更展示了长时间自主工作的稳定性和多模态输出能力。
原生多模态训练的核心优势在于:模型对视觉信息的理解不是「翻译」成语言再处理,而是直接的多模态联合推理。这在需要精确视觉-语言对齐的任务(如图表分析、UI 理解)中表现尤为明显。
原生多模态的训练成本远高于后融合方案——需要多模态混合训练数据和更大的算力。M3 的 100 万亿 Token 训练规模,意味着 MiniMax 投入了巨大的计算资源。
五、SWE-Bench Pro 59%:编程能力的真实水平分析
M3 在 SWE-Bench Pro 上取得 59% 的成绩,超越 GPT-5.5 和 Gemini 3.1 Pro,接近 Claude Opus 4.7。这个数字意味着什么?
SWE-Bench Pro 是什么:2026 年新引入的更难版本的 SWE-Bench。原版 SWE-Bench Verified 使用 GitHub 上的真实 issue 作为评测任务,而 Pro 版本增加了更复杂的跨文件修改、依赖关系处理和工程级约束条件。59% 意味着 M3 能独立解决近六成的真实软件工程问题。
与竞品的对比(数据来源:BenchLM.ai,截至 2026 年 6 月 2 日):
| 排名 | 模型 | SWE-Bench Verified |
|---|---|---|
| 1 | Claude Mythos Preview | 93.9% |
| 2 | Claude Opus 4.8 | 88.6% |
| 3 | Claude Opus 4.7 (Adaptive) | 87.6% |
| ... | ... | ... |
| ~9 | MiniMax M3 | ~85% |
| ~10 | Qwen3.7 Max | ~84% |
M3 的编程能力定位:在 SWE-Bench Verified 上,M3 排名全球约第 9 位,与 Qwen3.7 Max 处于同一梯队,在开源模型中处于领先地位。
但需要理解两个关键约束:
- Benchmark 均为厂商自报:所有分数都在 MiniMax 自己的基础设施上运行,未经第三方独立验证。这是一个普遍问题——不只是 MiniMax,几乎所有模型厂商都存在这个问题。
- SWE-Bench 与实际工程能力的差距:能通过 SWE-Bench 不代表能在实际项目中替代工程师。SWE-Bench 评测的是「给一个 issue,修复它」的能力,而实际工程还涉及需求理解、架构设计、团队协作等。
AI Master 的独立判断:M3 的编程能力确实达到了「前沿」水平——不是「最强」,但已经进入了「能实际用于生产环境」的区间。对于中小团队来说,M3 以开源+低价的方式提供了接近 Opus 4.7 水平的编程辅助能力,这是其最大的竞争力。
| 维度 | MiniMax M3 | Claude Opus 4.7 | GPT-5.5 | Qwen3.7 Max |
|---|---|---|---|---|
SWE-Bench Pro | 59% |
| <59% | 未公布 |
SWE-Bench Verified | ~85% | 87.6% | ~82% | ~84% |
上下文窗口 | 1M | 1M | 128K | 256K |
开源 | ✅ MIT License | ❌ | ❌ | 部分开源 |
API 百万 Token 输入价 | 4.2 元 | 未公开 | 未公开 | 未公开 |
订阅价 | 49 元/月 (6 亿 Token) | $20/月 (~20 万) | $20/月 | 免费+付费 |
评估一个编程模型,不要只看 SWE-Bench 分数。更实用的是:在你的实际代码库上试用,看它是否能理解你的项目结构、框架约定和编码风格。
不要因为一个模型在 SWE-Bench 上分数高就认为它可以替代工程师。当前所有 AI 编程工具的最佳使用方式是「辅助」——加速常见任务,而不是「替代」——独立完成所有开发工作。
六、定价策略与开源生态:中国 AI 的商业打法
M3 的定价策略值得深入分析——它同时包含 API 定价和 TokenPlan 订阅定价两种模式。
API 定价:百万 Token 输入 4.2 元(限时 7 天 5 折,折后 2.1 元/百万 Token)。这个价格在 7 天限时结束后将「显著上行」。对比来看:
- 智谱 GLM-5.1:百万 Token 输入 6 元
- MiniMax M2.7:百万 Token 输入约 2.1 元(M3 限时折后价格持平 M2.7)
- M3 正式价 4.2 元:约为 M2.7 的 2 倍,但仍低于智谱 GLM-5.1
TokenPlan 订阅方案:
- Plus:49 元/月,6 亿 Token
- Max:119 元/月,18 亿 Token
- Ultra:469 元/月,55 亿 Token
与 Claude Pro 的对比:Claude Pro 20 美元/月(约 144 元人民币),提供的 Token 量远低于 MiniMax Plus 的 6 亿 Token。据新浪财经报道,MiniMax Plus 的 Token 容量约等于 Claude Pro 的 5 倍。
开源策略的商业逻辑:MIT License 开源意味着任何人都可以免费下载、修改、商用 M3 的权重。这看起来是「放弃收入」,但实际上:
- API 市场:大多数开发者/企业不会自部署,而是使用 API——开源只是建立开发者心智的手段
- 自部署市场:需要算力和工程能力的团队会自部署——这部分本来就不是 API 收入的主要来源
- 生态锁定:开发者习惯了 M3 的 API 和工作流后,迁移成本很高
MiniMax Code 产品:与 M3 一起训练的 Agent 产品,支持 Agent Team 将大型任务拆解为多阶段、可并发、可动态调整的 Workflow。这是 MiniMax 的「Claude Code」——将 M3 的编程能力封装为可以直接使用的开发者工具。
MiniMax 的定价策略是一个精心设计的「漏斗」:开源建立生态 → 低价 API 吸引试用 → 订阅方案锁定长期用户 → MiniMax Code 产品实现生产力变现。每一步都为 IPO 增长故事贡献指标。
M3 的 API 限时 5 折结束后价格将翻倍到 4.2 元/百万 Token。如果你在考虑长期使用,需要评估 5 折结束后的成本是否仍然划算。同时,中国《2017 年国家情报法》要求 MiniMax「支持、协助和配合」政府情报工作——这对海外企业用户来说是一个需要评估的合规风险。
七、竞争格局:M3 在中国 AI 模型中的定位
2026 年 6 月,中国 AI 模型市场呈现出多强并立的格局。M3 的发布进一步加剧了这一竞争。
中国 AI 模型三巨头格局:
- 智谱(GLM 系列):工具链最完整(20+ 款 MCP 工具),GLM-5 已达到 8 小时级持续工作。最快响应开发者需求,港股+A 股双平台上市。
- MiniMax(M 系列):以「开源+多能力合一」为差异化定位,M3 填补了国内开源前沿模型的空白。同步推进 A 股 IPO。
- 月之暗面(Kimi 系列):Kimi K2.6 在长程编码能力上领先,大幅增强 Agent 自主化执行能力。
M3 的相对优势与劣势:
- 优势:唯一开源的前沿多能力模型、MSA 架构的长上下文效率、性价比最高的订阅方案
- 劣势:在 Coding 领域是「追赶者」——智谱 GLM-5 和 Kimi K2.6 已先行建立了开发者心智;SWE-Bench 数据未经验证
全球视角:M3 是全球范围内除 OpenAI、Anthropic、Google 之外,少数同时具备 Coding+长上下文+多模态三合一能力的模型。它的开源策略使其成为国际开发者生态中最具吸引力的中国模型。
| 维度 | 智谱 GLM-5 | MiniMax M3 | Kimi K2.6 |
|---|---|---|---|
开源 | 部分开源 | ✅ MIT License | 部分开源 |
上下文 | 未公开 | 1M Token | 256K Token |
编程能力 | 8 小时持续工作 | SWE-Bench Pro 59% | 长程编码增强 |
多模态 | 部分支持 | ✅ 原生多模态 | 部分支持 |
订阅价 | 未公开 | 49 元/月起 | 免费+付费 |
工具链 | 20+ MCP 工具 | MiniMax Code | MCP 支持 |
上市进度 | 港股+A 股公告 | 科创板辅导中 | 未公开 |
选择中国 AI 模型时:如果你需要最完整的工具链和开发者支持 → 智谱;如果你需要开源+性价比 → MiniMax M3;如果你需要长程编码能力 → Kimi K2.6。
中国 AI 模型的竞争格局变化极快——2026 年已经发布了多个重大版本更新。本文的对比基于 2026 年 6 月的数据,后续可能会有新的模型发布或更新。
八、趋势预判:M3 之后,AI 竞争将走向何方?
M3 的发布揭示了 2026 年下半年 AI 竞争的三个关键趋势。
趋势一:Coding 与 Agentic 能力成为竞争主战场
正如阿里 CEO 吴泳铭所言:「大量公司的 API 需求增长,几乎大部分都是由 AI Coding 能力提升带来的。」从 OpenAI Codex 到 Claude Code 到 MiniMax Code,AI 编程已经从辅助工具进化为生产力平台。M3 的 SWE-Bench Pro 成绩表明,中国模型在这个战场上已经进入了全球第一梯队。
趋势二:长上下文从营销噱头变为实际刚需
随着 Agent 任务复杂度提升——多文件代码理解、长程对话记忆、多模态推理——1M+ Token 上下文正在从营销噱头变为实际刚需。MSA 等稀疏注意力架构的意义在于:让长上下文不仅在技术上可行,在成本上也可行。
趋势三:开源成为中国模型突围的差异化武器
OpenAI 和 Anthropic 选择了封闭路线,而中国模型(MiniMax、智谱、月之暗面)普遍采用不同程度的开源策略。开源不是免费——它是一种生态策略,通过降低使用门槛来快速扩大开发者基数。在全球 AI 竞争中,这可能成为中国模型的独特优势。
AI Master 的终局判断:M3 发布后,全球前沿模型市场形成了封闭三强(OpenAI、Anthropic、Google)对比开源三强(MiniMax、智谱、Kimi)的新格局。开源模型的能力正在逼近封闭模型,价格差距(10-20 倍)可能比能力差距(10-20%)更具决定性。在开发者预算有限的前提下,开源 + 低价的组合拳将在 2026 年下半年产生真正的市场冲击。
如果你是一个开发者或技术决策者,2026 年下半年是评估开源模型的最佳时机——能力已经接近前沿,价格远低于封闭模型,生态正在快速成熟。
开源模型的合规风险不容忽视。中国《国家情报法》对数据隐私的影响需要海外企业认真评估。同时,开源模型的企业级支持(SLA、安全审计、合规认证)相比封闭模型仍有差距。
九、技术深度:MSA 与传统稀疏注意力的对比分析
为了真正理解 MSA 的技术价值,需要将其与已有的稀疏注意力方案进行系统对比。稀疏注意力并非新概念——从 Transformer 诞生以来,研究者一直在探索如何突破 O(n²) 的计算瓶颈。
Longformer(2020):采用滑动窗口 + 全局注意力的混合策略。每个 Token 只关注窗口内的邻近 Token(滑动窗口),同时指定少量全局 Token 可以被所有 Token 关注。优点是计算效率高,缺点是需要人工指定全局 Token,灵活性差。
BigBird(2020):在滑动窗口基础上增加了随机注意力——每个 Token 随机关注几个远距离 Token。理论基础更完善(证明了对 Transformer 的通用近似),但随机选择的效率不够稳定。
Routing Transformer(2020):使用 k-means 聚类将相似 Token 分到同一组,组内计算完整注意力。理论上更智能,但聚类本身也有计算开销。
MSA 的独特之处:MiniMax Sparse Attention 采用 KV-Block 选择机制——不是基于固定模式(滑动窗口)或随机选择,而是基于模型学习到的注意力稀疏模式,动态决定哪些 KV 块需要计算注意力。这与 Longformer 的固定模式和 BigBird 的随机模式有本质区别。
MSA 相比已有方案的优势:
- 动态选择 vs 固定模式:Longformer 的滑动窗口是固定的,MSA 根据内容动态决定关注哪些区域
- 端到端训练 vs 后处理:MSA 是模型架构的一部分,从训练开始就优化稀疏模式,而不是事后裁剪注意力
- 原生多模态支持:MSA 不仅处理文本 Token,还处理图像和视频 Token,跨模态的注意力稀疏模式更为复杂
但 MSA 也面临挑战:动态稀疏模式的选择本身需要计算开销,如何平衡「选择开销」和「注意力计算节省」是一个工程难题。MiniMax 宣称在 1M Token 下计算量减少到 1/20,但这一数据需要在不同任务类型下验证。
| 方案 | 稀疏策略 | 复杂度 | 灵活性 | 代表模型 |
|---|---|---|---|---|
Longformer | 滑动窗口+全局 | O(n·w) | 低(固定模式) | Longformer |
BigBird | 窗口+随机+全局 | O(n·w) | 中(随机选择) | BigBird |
Routing Transformer | k-means 聚类 | O(n·k) | 高(但聚类有开销) | Routing Transformer |
Flash Attention | 分块计算(全注意力) | O(n²) 但常数小 | 全注意力 | LLaMA 3 |
MSA | KV-Block 动态选择 | O(n·k) 动态 | 高(学习到的模式) | MiniMax M3 |
如果你在构建需要超长上下文的模型,MSA 的思路值得借鉴——动态稀疏模式是未来方向。但 Flash Attention 的优化技巧(分块计算、重计算)应该先用,因为它是通用优化,不改变模型行为。
稀疏注意力的一个常见陷阱是:过度稀疏会丢失关键的远距离依赖关系。MSA 的 KV-Block 选择算法必须经过充分训练,否则在需要精确长距离理解的任务中性能会下降。
十、MiniMax 的技术路线图:从 M1 到 M3 的演进
理解 M3 的技术突破,需要回顾 MiniMax 的完整技术路线。MiniMax 并非「突然发布一个前沿模型」,而是有清晰技术路线的逐步演进。
M1(2024 年初):MiniMax 的第一代基础模型,定位于对话和多模态理解。虽然在评测分数上不占优势,但在中文理解和多模态交互方面表现出色。M1 的关键贡献是建立了 MiniMax 的多模态训练基础设施。
M2 系列(2025 年中-2026 年初):
- M2:增强了编程能力,开始在 SWE-Bench 上取得可用分数
- M2.5(2025 年底):230B MoE 模型,10B 活跃参数,SWE-Bench Verified 达到 80.2%,以 1/20 的价格匹配 Opus 的编码能力——这是 MiniMax 在编程领域的「性价比杀手」
- M2.7(2026 年 3 月):引入自改进训练(autonomous self-evolution loops),模型能主动参与自身训练过程
M3(2026 年 6 月 1 日):三大能力合一的里程碑——前沿 Coding + 1M 上下文 + 原生多模态,并且是开源的。M3 不是 M2.7 的简单升级,而是架构层面的重新设计(MSA 替代全注意力)。
技术路线的清晰信号:MiniMax 的每一步都围绕一个核心策略——「开源 + 性价比」切入市场,用工程化优势(长上下文效率、多模态融合、Agent 能力)建立差异化。这与 OpenAI 的「封闭 + 最强模型」和 Anthropic 的「封闭 + 最安全模型」形成鲜明对比。
# MiniMax 模型演进时间线
| 模型 | 发布时间 | 关键能力 | SWE-Bench Verified | 定位 |
|------|---------|---------|-------------------|------|
| M1 | 2024 Q1 | 对话+多模态理解 | N/A | 基础模型 |
| M2 | 2025 Q2 | 编程能力增强 | ~60% | 编程辅助 |
| M2.5 | 2025 Q4 | 230B MoE, 80.2% SWE | 80.2% | 性价比杀手 |
| M2.7 | 2026 Q1 | 自改进训练 | ~83% | 自主训练 |
| **M3** | **2026 Q2** | **1M 上下文+原生多模态+开源** | **~85%** | **全能开源** || 维度 | M1 | M2.5 | M2.7 | M3 |
|---|---|---|---|---|
上下文 | 32K | 128K | 128K | 1M |
注意力架构 | 全注意力 | 全注意力 | 全注意力 | MSA 稀疏 |
多模态 | 后融合 | 部分原生 | 部分原生 | 完全原生 |
编程 | 基础 | 80.2% SWE | 增强 | SWE-Pro 59% |
开源 | 否 | 否 | 否 | MIT License |
训练数据 | ~10T | ~50T | ~80T | 100T |
技术路线的清晰性是评估一个 AI 公司长期竞争力的关键指标。MiniMax 的路线图表明它不是盲目追热点,而是在有策略地构建技术护城河。
模型版本的数字命名(M1→M2→M3)不代表能力的线性增长。M3 相比 M2.7 是架构级重构(MSA 替代全注意力),这种变化带来的性能提升和成本降低,远超参数规模的线性增长。
十一、给开发者和企业的行动建议
基于对 MiniMax M3 的全面分析,本站为不同角色的用户群体提供以下行动建议。
对于独立开发者:
- 立即试用 M3 的限时 5 折 API——4.2 元/百万 Token(折后 2.1 元)的价格窗口只有 7 天。即使你当前不需要,也应该趁低价测试 M3 在你实际项目中的表现
- 下载开源权重——MIT License 意味着你可以在本地部署,完全消除 API 成本和隐私顾虑。如果你的开发机器有足够 GPU 内存(建议 24GB+),这是一个值得尝试的选项
- 对比测试——在同一个项目上,同时测试 M3、智谱 GLM-5 和 Kimi K2.6,用实际结果而非评测分数来选择工具
对于中小企业:
- 评估 TokenPlan 订阅方案——49 元/月的 Plus 计划提供 6 亿 Token,对于中小团队来说是性价比极高的选择。如果团队已有 Copilot/Claude Code,可以并行使用 M3 作为补充
- 关注数据安全——使用 M3 的 API 时,确保不上传敏感代码或商业机密。如果需要处理敏感数据,考虑本地部署开源权重
- 监控竞品动态——智谱和月之暗面可能在未来几周推出回应性更新,保持对行业竞争的关注
对于技术决策者:
- 将 M3 纳入技术选型候选——在下一个 AI 编程工具采购项目中,加入 M3 的评估
- 评估开源 vs 封闭的长期策略——M3 的开源路线代表了一种新的可能性——前沿能力 + 开源 + 低价。如果你的企业倾向于技术自主,这条路线值得关注
- 关注合规风险——中国《国家情报法》对数据处理的要求需要法务团队评估。如果企业有海外业务或合规要求,这是必须考虑的因素
对于 AI 研究者:
- 研究 MSA 架构——稀疏注意力是突破 Transformer 计算瓶颈的重要方向。MSA 的 KV-Block 选择机制是一个值得深入研究的课题
- 关注交错数据训练——MiniMax 强调交错数据对多模态性能的提升超出预期。这是一个值得在学术研究中验证的假设
- 参与开源社区——MIT License 开源意味着你可以自由研究、修改和贡献代码。这是建立技术影响力的好机会
如果你只能做一件事——立即下载 M3 的开源权重并试用。开源模型的窗口期往往很短,一旦市场验证了价值,后续可能会有许可证变更或限制条款。
限时 5 折(2.1 元/百万 Token)结束后价格将翻倍到 4.2 元/百万 Token。如果你在折扣期外阅读本文,需要按正式价格评估成本。