首页/博客/MiniMax M3 深度解析:1M 上下文、原生多模态与中国模型的开源突围

MiniMax M3 深度解析:1M 上下文、原生多模态与中国模型的开源突围

MiniMax M3✍️ AI Master📅 创建 2026-06-03📖 28 min 阅读
💡

文章摘要

2026 年 6 月 1 日,MiniMax 发布 M3 旗舰模型——首个同时具备前沿 Coding 能力、100 万 Token 上下文和原生多模态的开源模型。本文深度解读 MSA 稀疏注意力架构、SWE-Bench Pro 59% 性能表现、TokenPlan 订阅定价策略,以及 MiniMax A 股 IPO 背后的中国 AI 开源突围战。

前置阅读收获:三十秒了解本文核心价值

在深入阅读之前,先明确从本文能获得什么:

你将掌握的关键认知

  • MiniMax M3 的三大核心能力:前沿 Coding(SWE-Bench Pro 接近 Claude Opus 4.7)、1M Token 超长上下文(MSA 稀疏注意力架构)、原生多模态(文本+图片+视频混合训练,100 万亿 Token 训练数据)
  • MSA 架构的技术突破:在 100 万 Token 上下文下,单 Token 计算量仅为上一代的 1/20,推理效率大幅提升
  • 定价策略对比:API 百万 Token 输入 4.2 元(限时 5 折),订阅 Plus 49 元/月提供 6 亿 Token(约 Claude Pro 的 5 倍)
  • 开源策略的深远影响:MIT License 开源,填补国内开源前沿模型空白,国际开发者生态渗透
  • MiniMax IPO 战略:科创板 + 港股双平台布局,建立国内人民币定价权

本文所有数据来源于 MiniMax 官方公告(2026 年 6 月 1 日)、新浪财经、经济参考报、Lushbinary 对比评测、BenchLM.ai 排行榜,可交叉验证。

如果你关注中国 AI 模型的竞争力,第二章「MSA 稀疏注意力架构详解」和第三章「1M 上下文的工程意义」是核心技术章节。如果你关注商业策略,直接跳到第六章「开源策略与 IPO 布局」。

MiniMax M3 的性能数据均为厂商自报,尚未经第三方独立复测。SWE-Bench Pro 是 2026 年新引入的更难评测集,各家数据口径不完全一致,需等待第三方独立验证。

一、事件概述:中国 AI 的又一次旗舰发布

2026 年 6 月 1 日,上海稀宇科技(MiniMax)正式发布新一代通用基础模型 MiniMax M3。这是 MiniMax 在 M2.7(2026 年 3 月)之后不到三个月的又一次重大升级,也是中国 AI 模型在 2026 年密集发布潮中的关键一子。

M3 的定位非常明确:首个同时具备前沿 Coding 能力、100 万 Token 超长上下文、原生多模态三项核心能力的开源大模型。在 MiniMax 发布 M3 的前一天(5 月 31 日),公司宣布已聘请专业顾问就符合在科创板上市条件提供咨询——技术发布与资本运作同步推进,信号意味明显。

M3 的核心性能数据(厂商自报):

评测集 MiniMax M3 主要竞品
SWE-Bench Pro 59% GPT-5.5、Gemini 3.1 Pro(低于 M3),Opus 4.7(高于 M3)
SWE-Bench Verified ~85% Claude Opus 4.8(88.6%),Qwen3.7 Max(~84%)
SVG-Bench 超越 Opus 4.7 SVG 生成性能基准
BrowseComp 超越 Opus 4.7 自主网页浏览基准

值得关注的细节:M3 是「open-weights」(开放权重)模型,采用 MIT License 开源。这意味着开发者可以自由下载、修改、商用,而不仅仅是通过 API 调用。这与 OpenAI、Anthropic 的封闭策略形成鲜明对比。

图表加载中…

理解 M3 的关键不在于单项评测分数,而在于它是首个将三项前沿能力整合到一个开源模型中的产品——这在 2026 年 6 月的时间点上,全球独此一家。

所有性能数据均为 MiniMax 自报,在自有基础设施上运行。SWE-Bench Pro 是 2026 年新评测集,第三方独立复测尚未完成,数据需谨慎参考。

一.5、M3 发布后的市场反应与行业影响

M3 发布后,AI 行业在 24 小时内出现了密集的连锁反应,这一速度本身就说明了 M3 的影响力。

开发者社区的即时反馈:在 X(Twitter)和 Hacker News 上,M3 成为当天最热门的 AI 话题。开发者对 M3 的关注点集中在三个方向——首先是 MSA 架构的技术细节,许多开发者对 KV-Block 选择机制表示兴趣,认为这是稀疏注意力方向最有前景的方案之一;其次是 1M 上下文在代码仓库场景中的实际应用价值,有开发者立即开始测试 M3 在 50 万+ Token 代码库上的理解能力;最后是开源策略的深远影响,MIT License 使得 M3 成为国际开发者社区中最受关注的中国模型。

资本市场的反应:MiniMax 在发布 M3 的前一天宣布科创板辅导,两天后智谱也宣布港股+A 股双平台上市。中国 AI 模型的「技术发布 + 资本运作」同步推进正在成为一种模式。东方证券在 M3 发布当天发布的研报中,将 AI Coding 市场的总潜在市场(TAM)估算为 4000 亿美元,这一数字远超此前市场普遍预期的 1000-2000 亿美元。

竞争对手的动态:智谱在 M3 发布次日(6 月 2 日)即宣布 GLM-5.1 的开源计划,这被业界视为对 M3 的直接回应。月之暗面也在社交媒体上暗示将有"重大更新"。中国 AI 模型厂商之间的竞争正在从"能力比拼"升级为"生态竞争"——不只是谁的模型更强,而是谁的开源策略、定价策略和开发者工具链更能吸引用户。

图表加载中…

如果你在关注中国 AI 模型的商业竞争格局,M3 的发布是一个关键的观察窗口——它同时触发了技术讨论、资本运作和竞争对手回应,这是中国 AI 行业发展的重要信号。

行业 TAM 估算(4000 亿美元)基于替代程序员人力成本的假设,这是一个高度乐观的上限估算。实际市场规模可能在 500-1000 亿美元区间。

二、MSA 稀疏注意力架构:1M 上下文的技术基础

支撑 M3 三项能力合一的核心技术是其自研的MiniMax Sparse Attention(MSA)稀疏注意力架构。这是理解 M3 为何能在 100 万 Token 规模下保持高效的关键。

传统全注意力机制(Full Attention)的致命问题:在 Transformer 中,每个 Token 需要与序列中所有其他 Token 计算注意力,复杂度为 O(n²)。当 n=1,000,000 时,n²=10¹²,这在计算和内存上都是不可承受的。

MSA 的核心思路——KV-Block 选择:不计算所有 Token 对的注意力,而是通过一种智能的 KV 块选择机制,只计算与当前 Token 最相关的部分 KV 对。这类似于你在读一本 1000 页的书时,不需要每次都回顾所有 1000 页——你只需要回顾与当前段落最相关的那些页。

MSA 与 Flash Attention 的区别:

  • Flash Attention:仍然计算完整注意力矩阵,只是通过分块计算和重计算优化内存访问效率
  • MSA从根本上减少需要计算的注意力对数量——只计算「必要的」注意力,跳过「不相关的」Token 对

MiniMax 官方披露的数据:在 100 万 Token 上下文规模下,M3 的单 Token 计算量仅为上一代模型(M2.7,使用全注意力)的约1/20。这意味着 M3 不仅支持更大的上下文窗口,而且在长上下文下的推理速度和成本都远优于传统架构。

python
# 概念演示:全注意力 vs 稀疏注意力的计算量对比
import numpy as np

def full_attention_cost(seq_len):
    """全注意力:O(n²) 复杂度"""
    return seq_len ** 2

def sparse_attention_cost(seq_len, sparsity_ratio=0.05):
    """稀疏注意力:只计算 sparsity_ratio 比例的注意力对"""
    # MSA 通过 KV-Block 选择,只保留最相关的 Token 对
    return seq_len ** 2 * sparsity_ratio

seq_lens = [4096, 32768, 100000, 1000000]
print(f"{'序列长度':>10} | {'全注意力':>12} | {'MSA稀疏(5%)':>12} | {'节省比':>8}")
print("-" * 55)
for n in seq_lens:
    full = full_attention_cost(n)
    sparse = sparse_attention_cost(n, 0.05)
    ratio = full / sparse
    print(f"{n:>10,} | {full:>12,} | {sparse:>12,} | {ratio:>6.1f}x")

# 在 100 万 Token 时:
# 全注意力:1,000,000,000,000 次计算
# MSA(5%稀疏):50,000,000,000 次计算 → 节省 20x
图表加载中…

MSA 的核心创新在于「选择性计算」——它不是对所有 Token 一视同仁,而是智能地决定哪些 Token 对需要计算注意力。这与人类阅读时「快速扫读+重点细读」的策略如出一辙。

稀疏注意力的风险在于可能遗漏关键的远距离依赖关系。MSA 的 KV-Block 选择算法必须足够智能,否则在需要精确理解长距离语义关联的任务中(如长文档问答),性能可能下降。

三、1M 上下文的工程意义:为什么这很重要?

100 万 Token 的上下文窗口不是数字游戏——它直接改变了 AI 能解决的实际问题类型

对比主流模型的上下文窗口:

模型 上下文窗口 等效内容量
GPT-5.5 128K Token ~96,000 字(约 1/3 本《红楼梦》)
Claude Opus 4.8 1M Token ~750,000 字(约 2.5 本《红楼梦》)
MiniMax M3 1M Token ~750,000 字
Kimi K2.6 256K Token ~192,000 字
Qwen3.7-Plus 256K Token ~192,000 字

1M 上下文的三个关键应用场景:

  1. 大型代码仓库理解:一个中型项目的全部源代码可能在 50-100 万 Token 范围内。M3 可以在一次推理中「看到」整个代码库,而不是像传统模型那样需要分块处理、丢失跨文件关联。这正是 M3 在 SWE-Bench Pro 上表现出色的关键原因。

  2. 长文档分析与对比:分析一份 200 页的财报、对比多份法律文件、理解整本技术手册——这些任务需要模型同时「持有」大量上下文,而不能只看局部。

  3. 多轮 Agent 对话:一个复杂的智能体任务可能涉及数百轮交互,每轮都需要保留历史上下文。MSA 在 1M Token 下计算量仅为上代的 1/20,使得长程 Agent 任务在成本上可行

但 1M 上下文有一个关键前提:模型必须在长上下文中保持「大海捞针」能力——即从 100 万 Token 中准确找到并理解关键信息的能力。如果模型在长上下文中「迷失」,更大的窗口只会增加噪音而非价值。

场景所需 Token 量传统模型的问题M3 的优势

中型代码仓库

50-100 万

分块处理丢失跨文件关联

一次推理完整理解

长财报/法律文件

20-50 万

截断丢失关键细节

完整输入不截断

多轮 Agent 对话

10-50 万

历史上下文丢失

全程保留交互记忆

视频理解(多帧)

50-200 万

帧数受限,时序信息丢失

完整视频帧序列输入

如果你在处理代码仓库或长文档任务,1M 上下文带来的不是「能处理更多数据」,而是「能保持完整的上下文关联」——这是质的变化,不是量的变化。

更大的上下文 ≠ 更好的结果。如果任务只需要 10K Token 的上下文,1M 窗口只会增加计算成本和延迟。选择模型时,上下文窗口要与任务需求匹配。

四、原生多模态训练:从第一步就融合

M3 的「原生多模态」与一些模型的「后融合多模态」有本质区别。

后融合多模态:先训练一个强大的语言模型,然后通过额外的适配层(Adapter)或微调来加入图像/视频理解能力。这种方式的问题在于多模态能力是「补丁」,与核心语言理解能力割裂。

原生多模态:从训练的第一步(Step 0)就开始使用文本、图片、视频的混合数据。M3 的训练数据规模达到 100 万亿 Token,且采用「交错数据」(Interleaved data)——文本和图像等其他模态在序列中交替自然排列。

MiniMax 在技术报告中强调:交错数据对模型性能的提升,比一般认为的更加关键。这意味着多模态训练不能简单理解为「文本 + 图像的简单拼接」,而是要让模型从一开始就学习跨模态的联合表示。

M3 的多模态能力具体包括:

  • 图像理解:分析图片内容、提取信息、回答视觉问题
  • 视频理解:处理视频帧序列,理解时序变化
  • Computer Use(桌面操作):在复杂跨应用环境中,像人一样操作电脑——这是 M3 多模态能力的最高级体现,也是 Agent 任务的终极形态之一

一个震撼的案例:MiniMax 给 M3 一篇 ICLR 2025 杰出论文,让它独立复现。M3 连续运行近 12 小时,全程自主产出 18 次 Commit 与 23 张实验图表,成功跑通核心实验。这不仅展示了编码能力,更展示了长时间自主工作的稳定性和多模态输出能力

图表加载中…

原生多模态训练的核心优势在于:模型对视觉信息的理解不是「翻译」成语言再处理,而是直接的多模态联合推理。这在需要精确视觉-语言对齐的任务(如图表分析、UI 理解)中表现尤为明显。

原生多模态的训练成本远高于后融合方案——需要多模态混合训练数据和更大的算力。M3 的 100 万亿 Token 训练规模,意味着 MiniMax 投入了巨大的计算资源。

五、SWE-Bench Pro 59%:编程能力的真实水平分析

M3 在 SWE-Bench Pro 上取得 59% 的成绩,超越 GPT-5.5 和 Gemini 3.1 Pro,接近 Claude Opus 4.7。这个数字意味着什么?

SWE-Bench Pro 是什么:2026 年新引入的更难版本的 SWE-Bench。原版 SWE-Bench Verified 使用 GitHub 上的真实 issue 作为评测任务,而 Pro 版本增加了更复杂的跨文件修改、依赖关系处理和工程级约束条件。59% 意味着 M3 能独立解决近六成的真实软件工程问题

与竞品的对比(数据来源:BenchLM.ai,截至 2026 年 6 月 2 日):

排名 模型 SWE-Bench Verified
1 Claude Mythos Preview 93.9%
2 Claude Opus 4.8 88.6%
3 Claude Opus 4.7 (Adaptive) 87.6%
... ... ...
~9 MiniMax M3 ~85%
~10 Qwen3.7 Max ~84%

M3 的编程能力定位:在 SWE-Bench Verified 上,M3 排名全球约第 9 位,与 Qwen3.7 Max 处于同一梯队,在开源模型中处于领先地位

但需要理解两个关键约束:

  1. Benchmark 均为厂商自报:所有分数都在 MiniMax 自己的基础设施上运行,未经第三方独立验证。这是一个普遍问题——不只是 MiniMax,几乎所有模型厂商都存在这个问题。
  2. SWE-Bench 与实际工程能力的差距:能通过 SWE-Bench 不代表能在实际项目中替代工程师。SWE-Bench 评测的是「给一个 issue,修复它」的能力,而实际工程还涉及需求理解、架构设计、团队协作等。

AI Master 的独立判断:M3 的编程能力确实达到了「前沿」水平——不是「最强」,但已经进入了「能实际用于生产环境」的区间。对于中小团队来说,M3 以开源+低价的方式提供了接近 Opus 4.7 水平的编程辅助能力,这是其最大的竞争力。

维度MiniMax M3Claude Opus 4.7GPT-5.5Qwen3.7 Max

SWE-Bench Pro

59%

59%

<59%

未公布

SWE-Bench Verified

~85%

87.6%

~82%

~84%

上下文窗口

1M

1M

128K

256K

开源

✅ MIT License

部分开源

API 百万 Token 输入价

4.2 元

未公开

未公开

未公开

订阅价

49 元/月 (6 亿 Token)

$20/月 (~20 万)

$20/月

免费+付费

评估一个编程模型,不要只看 SWE-Bench 分数。更实用的是:在你的实际代码库上试用,看它是否能理解你的项目结构、框架约定和编码风格。

不要因为一个模型在 SWE-Bench 上分数高就认为它可以替代工程师。当前所有 AI 编程工具的最佳使用方式是「辅助」——加速常见任务,而不是「替代」——独立完成所有开发工作。

六、定价策略与开源生态:中国 AI 的商业打法

M3 的定价策略值得深入分析——它同时包含 API 定价TokenPlan 订阅定价两种模式。

API 定价:百万 Token 输入 4.2 元(限时 7 天 5 折,折后 2.1 元/百万 Token)。这个价格在 7 天限时结束后将「显著上行」。对比来看:

  • 智谱 GLM-5.1:百万 Token 输入 6 元
  • MiniMax M2.7:百万 Token 输入约 2.1 元(M3 限时折后价格持平 M2.7)
  • M3 正式价 4.2 元:约为 M2.7 的 2 倍,但仍低于智谱 GLM-5.1

TokenPlan 订阅方案

  • Plus:49 元/月,6 亿 Token
  • Max:119 元/月,18 亿 Token
  • Ultra:469 元/月,55 亿 Token

与 Claude Pro 的对比:Claude Pro 20 美元/月(约 144 元人民币),提供的 Token 量远低于 MiniMax Plus 的 6 亿 Token。据新浪财经报道,MiniMax Plus 的 Token 容量约等于 Claude Pro 的 5 倍

开源策略的商业逻辑:MIT License 开源意味着任何人都可以免费下载、修改、商用 M3 的权重。这看起来是「放弃收入」,但实际上:

  1. API 市场:大多数开发者/企业不会自部署,而是使用 API——开源只是建立开发者心智的手段
  2. 自部署市场:需要算力和工程能力的团队会自部署——这部分本来就不是 API 收入的主要来源
  3. 生态锁定:开发者习惯了 M3 的 API 和工作流后,迁移成本很高

MiniMax Code 产品:与 M3 一起训练的 Agent 产品,支持 Agent Team 将大型任务拆解为多阶段、可并发、可动态调整的 Workflow。这是 MiniMax 的「Claude Code」——将 M3 的编程能力封装为可以直接使用的开发者工具

图表加载中…

MiniMax 的定价策略是一个精心设计的「漏斗」:开源建立生态 → 低价 API 吸引试用 → 订阅方案锁定长期用户 → MiniMax Code 产品实现生产力变现。每一步都为 IPO 增长故事贡献指标。

M3 的 API 限时 5 折结束后价格将翻倍到 4.2 元/百万 Token。如果你在考虑长期使用,需要评估 5 折结束后的成本是否仍然划算。同时,中国《2017 年国家情报法》要求 MiniMax「支持、协助和配合」政府情报工作——这对海外企业用户来说是一个需要评估的合规风险。

七、竞争格局:M3 在中国 AI 模型中的定位

2026 年 6 月,中国 AI 模型市场呈现出多强并立的格局。M3 的发布进一步加剧了这一竞争。

中国 AI 模型三巨头格局:

  1. 智谱(GLM 系列):工具链最完整(20+ 款 MCP 工具),GLM-5 已达到 8 小时级持续工作。最快响应开发者需求,港股+A 股双平台上市。
  2. MiniMax(M 系列):以「开源+多能力合一」为差异化定位,M3 填补了国内开源前沿模型的空白。同步推进 A 股 IPO。
  3. 月之暗面(Kimi 系列):Kimi K2.6 在长程编码能力上领先,大幅增强 Agent 自主化执行能力。

M3 的相对优势与劣势:

  • 优势:唯一开源的前沿多能力模型、MSA 架构的长上下文效率、性价比最高的订阅方案
  • 劣势:在 Coding 领域是「追赶者」——智谱 GLM-5 和 Kimi K2.6 已先行建立了开发者心智;SWE-Bench 数据未经验证

全球视角:M3 是全球范围内除 OpenAI、Anthropic、Google 之外,少数同时具备 Coding+长上下文+多模态三合一能力的模型。它的开源策略使其成为国际开发者生态中最具吸引力的中国模型

维度智谱 GLM-5MiniMax M3Kimi K2.6

开源

部分开源

✅ MIT License

部分开源

上下文

未公开

1M Token

256K Token

编程能力

8 小时持续工作

SWE-Bench Pro 59%

长程编码增强

多模态

部分支持

✅ 原生多模态

部分支持

订阅价

未公开

49 元/月起

免费+付费

工具链

20+ MCP 工具

MiniMax Code

MCP 支持

上市进度

港股+A 股公告

科创板辅导中

未公开

选择中国 AI 模型时:如果你需要最完整的工具链和开发者支持 → 智谱;如果你需要开源+性价比 → MiniMax M3;如果你需要长程编码能力 → Kimi K2.6。

中国 AI 模型的竞争格局变化极快——2026 年已经发布了多个重大版本更新。本文的对比基于 2026 年 6 月的数据,后续可能会有新的模型发布或更新。

八、趋势预判:M3 之后,AI 竞争将走向何方?

M3 的发布揭示了 2026 年下半年 AI 竞争的三个关键趋势。

趋势一:Coding 与 Agentic 能力成为竞争主战场

正如阿里 CEO 吴泳铭所言:「大量公司的 API 需求增长,几乎大部分都是由 AI Coding 能力提升带来的。」从 OpenAI Codex 到 Claude Code 到 MiniMax Code,AI 编程已经从辅助工具进化为生产力平台。M3 的 SWE-Bench Pro 成绩表明,中国模型在这个战场上已经进入了全球第一梯队。

趋势二:长上下文从营销噱头变为实际刚需

随着 Agent 任务复杂度提升——多文件代码理解、长程对话记忆、多模态推理——1M+ Token 上下文正在从营销噱头变为实际刚需。MSA 等稀疏注意力架构的意义在于:让长上下文不仅在技术上可行,在成本上也可行。

趋势三:开源成为中国模型突围的差异化武器

OpenAI 和 Anthropic 选择了封闭路线,而中国模型(MiniMax、智谱、月之暗面)普遍采用不同程度的开源策略。开源不是免费——它是一种生态策略,通过降低使用门槛来快速扩大开发者基数。在全球 AI 竞争中,这可能成为中国模型的独特优势。

AI Master 的终局判断:M3 发布后,全球前沿模型市场形成了封闭三强(OpenAI、Anthropic、Google)对比开源三强(MiniMax、智谱、Kimi)的新格局。开源模型的能力正在逼近封闭模型,价格差距(10-20 倍)可能比能力差距(10-20%)更具决定性。在开发者预算有限的前提下,开源 + 低价的组合拳将在 2026 年下半年产生真正的市场冲击。

图表加载中…

如果你是一个开发者或技术决策者,2026 年下半年是评估开源模型的最佳时机——能力已经接近前沿,价格远低于封闭模型,生态正在快速成熟。

开源模型的合规风险不容忽视。中国《国家情报法》对数据隐私的影响需要海外企业认真评估。同时,开源模型的企业级支持(SLA、安全审计、合规认证)相比封闭模型仍有差距。

九、技术深度:MSA 与传统稀疏注意力的对比分析

为了真正理解 MSA 的技术价值,需要将其与已有的稀疏注意力方案进行系统对比。稀疏注意力并非新概念——从 Transformer 诞生以来,研究者一直在探索如何突破 O(n²) 的计算瓶颈。

Longformer(2020):采用滑动窗口 + 全局注意力的混合策略。每个 Token 只关注窗口内的邻近 Token(滑动窗口),同时指定少量全局 Token 可以被所有 Token 关注。优点是计算效率高,缺点是需要人工指定全局 Token,灵活性差

BigBird(2020):在滑动窗口基础上增加了随机注意力——每个 Token 随机关注几个远距离 Token。理论基础更完善(证明了对 Transformer 的通用近似),但随机选择的效率不够稳定。

Routing Transformer(2020):使用 k-means 聚类将相似 Token 分到同一组,组内计算完整注意力。理论上更智能,但聚类本身也有计算开销

MSA 的独特之处:MiniMax Sparse Attention 采用 KV-Block 选择机制——不是基于固定模式(滑动窗口)或随机选择,而是基于模型学习到的注意力稀疏模式,动态决定哪些 KV 块需要计算注意力。这与 Longformer 的固定模式和 BigBird 的随机模式有本质区别。

MSA 相比已有方案的优势:

  1. 动态选择 vs 固定模式:Longformer 的滑动窗口是固定的,MSA 根据内容动态决定关注哪些区域
  2. 端到端训练 vs 后处理:MSA 是模型架构的一部分,从训练开始就优化稀疏模式,而不是事后裁剪注意力
  3. 原生多模态支持:MSA 不仅处理文本 Token,还处理图像和视频 Token,跨模态的注意力稀疏模式更为复杂

但 MSA 也面临挑战:动态稀疏模式的选择本身需要计算开销,如何平衡「选择开销」和「注意力计算节省」是一个工程难题。MiniMax 宣称在 1M Token 下计算量减少到 1/20,但这一数据需要在不同任务类型下验证。

图表加载中…
方案稀疏策略复杂度灵活性代表模型

Longformer

滑动窗口+全局

O(n·w)

低(固定模式)

Longformer

BigBird

窗口+随机+全局

O(n·w)

中(随机选择)

BigBird

Routing Transformer

k-means 聚类

O(n·k)

高(但聚类有开销)

Routing Transformer

Flash Attention

分块计算(全注意力)

O(n²) 但常数小

全注意力

LLaMA 3

MSA

KV-Block 动态选择

O(n·k) 动态

高(学习到的模式)

MiniMax M3

如果你在构建需要超长上下文的模型,MSA 的思路值得借鉴——动态稀疏模式是未来方向。但 Flash Attention 的优化技巧(分块计算、重计算)应该先用,因为它是通用优化,不改变模型行为。

稀疏注意力的一个常见陷阱是:过度稀疏会丢失关键的远距离依赖关系。MSA 的 KV-Block 选择算法必须经过充分训练,否则在需要精确长距离理解的任务中性能会下降。

十、MiniMax 的技术路线图:从 M1 到 M3 的演进

理解 M3 的技术突破,需要回顾 MiniMax 的完整技术路线。MiniMax 并非「突然发布一个前沿模型」,而是有清晰技术路线的逐步演进

M1(2024 年初):MiniMax 的第一代基础模型,定位于对话和多模态理解。虽然在评测分数上不占优势,但在中文理解和多模态交互方面表现出色。M1 的关键贡献是建立了 MiniMax 的多模态训练基础设施

M2 系列(2025 年中-2026 年初)

  • M2:增强了编程能力,开始在 SWE-Bench 上取得可用分数
  • M2.5(2025 年底):230B MoE 模型,10B 活跃参数,SWE-Bench Verified 达到 80.2%,以 1/20 的价格匹配 Opus 的编码能力——这是 MiniMax 在编程领域的「性价比杀手」
  • M2.7(2026 年 3 月):引入自改进训练(autonomous self-evolution loops),模型能主动参与自身训练过程

M3(2026 年 6 月 1 日)三大能力合一的里程碑——前沿 Coding + 1M 上下文 + 原生多模态,并且是开源的。M3 不是 M2.7 的简单升级,而是架构层面的重新设计(MSA 替代全注意力)。

技术路线的清晰信号:MiniMax 的每一步都围绕一个核心策略——「开源 + 性价比」切入市场,用工程化优势(长上下文效率、多模态融合、Agent 能力)建立差异化。这与 OpenAI 的「封闭 + 最强模型」和 Anthropic 的「封闭 + 最安全模型」形成鲜明对比。

markdown
# MiniMax 模型演进时间线

| 模型 | 发布时间 | 关键能力 | SWE-Bench Verified | 定位 |
|------|---------|---------|-------------------|------|
| M1 | 2024 Q1 | 对话+多模态理解 | N/A | 基础模型 |
| M2 | 2025 Q2 | 编程能力增强 | ~60% | 编程辅助 |
| M2.5 | 2025 Q4 | 230B MoE, 80.2% SWE | 80.2% | 性价比杀手 |
| M2.7 | 2026 Q1 | 自改进训练 | ~83% | 自主训练 |
| **M3** | **2026 Q2** | **1M 上下文+原生多模态+开源** | **~85%** | **全能开源** |
维度M1M2.5M2.7M3

上下文

32K

128K

128K

1M

注意力架构

全注意力

全注意力

全注意力

MSA 稀疏

多模态

后融合

部分原生

部分原生

完全原生

编程

基础

80.2% SWE

增强

SWE-Pro 59%

开源

MIT License

训练数据

~10T

~50T

~80T

100T

技术路线的清晰性是评估一个 AI 公司长期竞争力的关键指标。MiniMax 的路线图表明它不是盲目追热点,而是在有策略地构建技术护城河。

模型版本的数字命名(M1→M2→M3)不代表能力的线性增长。M3 相比 M2.7 是架构级重构(MSA 替代全注意力),这种变化带来的性能提升和成本降低,远超参数规模的线性增长。

十一、给开发者和企业的行动建议

基于对 MiniMax M3 的全面分析,本站为不同角色的用户群体提供以下行动建议。

对于独立开发者:

  1. 立即试用 M3 的限时 5 折 API——4.2 元/百万 Token(折后 2.1 元)的价格窗口只有 7 天。即使你当前不需要,也应该趁低价测试 M3 在你实际项目中的表现
  2. 下载开源权重——MIT License 意味着你可以在本地部署,完全消除 API 成本和隐私顾虑。如果你的开发机器有足够 GPU 内存(建议 24GB+),这是一个值得尝试的选项
  3. 对比测试——在同一个项目上,同时测试 M3、智谱 GLM-5 和 Kimi K2.6,用实际结果而非评测分数来选择工具

对于中小企业:

  1. 评估 TokenPlan 订阅方案——49 元/月的 Plus 计划提供 6 亿 Token,对于中小团队来说是性价比极高的选择。如果团队已有 Copilot/Claude Code,可以并行使用 M3 作为补充
  2. 关注数据安全——使用 M3 的 API 时,确保不上传敏感代码或商业机密。如果需要处理敏感数据,考虑本地部署开源权重
  3. 监控竞品动态——智谱和月之暗面可能在未来几周推出回应性更新,保持对行业竞争的关注

对于技术决策者:

  1. 将 M3 纳入技术选型候选——在下一个 AI 编程工具采购项目中,加入 M3 的评估
  2. 评估开源 vs 封闭的长期策略——M3 的开源路线代表了一种新的可能性——前沿能力 + 开源 + 低价。如果你的企业倾向于技术自主,这条路线值得关注
  3. 关注合规风险——中国《国家情报法》对数据处理的要求需要法务团队评估。如果企业有海外业务或合规要求,这是必须考虑的因素

对于 AI 研究者:

  1. 研究 MSA 架构——稀疏注意力是突破 Transformer 计算瓶颈的重要方向。MSA 的 KV-Block 选择机制是一个值得深入研究的课题
  2. 关注交错数据训练——MiniMax 强调交错数据对多模态性能的提升超出预期。这是一个值得在学术研究中验证的假设
  3. 参与开源社区——MIT License 开源意味着你可以自由研究、修改和贡献代码。这是建立技术影响力的好机会
图表加载中…

如果你只能做一件事——立即下载 M3 的开源权重并试用。开源模型的窗口期往往很短,一旦市场验证了价值,后续可能会有许可证变更或限制条款。

限时 5 折(2.1 元/百万 Token)结束后价格将翻倍到 4.2 元/百万 Token。如果你在折扣期外阅读本文,需要按正式价格评估成本。

标签

#MiniMax M3#稀疏注意力#1M 上下文#原生多模态#开源模型#SWE-Bench#AI 编程#中国 AI#MSA 架构

继续探索更多 AI 内容

浏览更多博客文章,或者深入学习 AI 核心知识