MiniMax M3 深度解析：1M 上下文、原生多模态与中国模型的开源突围

💡

文章摘要

2026 年 6 月 1 日，MiniMax 发布 M3 旗舰模型——首个同时具备前沿 Coding 能力、100 万 Token 上下文和原生多模态的开源模型。本文深度解读 MSA 稀疏注意力架构、SWE-Bench Pro 59% 性能表现、TokenPlan 订阅定价策略，以及 MiniMax A 股 IPO 背后的中国 AI 开源突围战。

前置阅读收获：三十秒了解本文核心价值

在深入阅读之前，先明确从本文能获得什么：

你将掌握的关键认知

-MiniMax M3 的三大核心能力：前沿 Coding（SWE-Bench Pro 接近 Claude Opus 4.7）、1M Token 超长上下文（MSA 稀疏注意力架构）、原生多模态（文本+图片+视频混合训练，100 万亿 Token 训练数据）
-MSA 架构的技术突破：在 100 万 Token 上下文下，单 Token 计算量仅为上一代的 1/20，推理效率大幅提升
-定价策略对比：API 百万 Token 输入 4.2 元（限时 5 折），订阅 Plus 49 元/月提供 6 亿 Token（约 Claude Pro 的 5 倍）
-开源策略的深远影响：MIT License 开源，填补国内开源前沿模型空白，国际开发者生态渗透
-MiniMax IPO 战略：科创板 + 港股双平台布局，建立国内人民币定价权

本文所有数据来源于 MiniMax 官方公告（2026 年 6 月 1 日）、新浪财经、经济参考报、Lushbinary 对比评测、BenchLM.ai 排行榜，可交叉验证。

💡 一句话理解

如果你关注中国 AI 模型的竞争力，第二章「MSA 稀疏注意力架构详解」和第三章「1M 上下文的工程意义」是核心技术章节。如果你关注商业策略，直接跳到第六章「开源策略与 IPO 布局」。

⚠️ 常见踩坑

MiniMax M3 的性能数据均为厂商自报，尚未经第三方独立复测。SWE-Bench Pro 是 2026 年新引入的更难评测集，各家数据口径不完全一致，需等待第三方独立验证。

一、事件概述：中国 AI 的又一次旗舰发布

2026 年 6 月 1 日，上海稀宇科技（MiniMax）正式发布新一代通用基础模型 MiniMax M3。这是 MiniMax 在 M2.7（2026 年 3 月）之后不到三个月的又一次重大升级，也是中国 AI 模型在 2026 年密集发布潮中的关键一子。

M3 的定位非常明确：首个同时具备前沿 Coding 能力、100 万 Token 超长上下文、原生多模态三项核心能力的开源大模型。在 MiniMax 发布 M3 的前一天（5 月 31 日），公司宣布已聘请专业顾问就符合在科创板上市条件提供咨询——技术发布与资本运作同步推进，信号意味明显。

M3 的核心性能数据（厂商自报）：


评测集	MiniMax M3	主要竞品
SWE-Bench Pro	59%	GPT-5.5、Gemini 3.1 Pro（低于 M3），Opus 4.7（高于 M3）
SWE-Bench Verified	~85%	Claude Opus 4.8（88.6%），Qwen3.7 Max（~84%）
SVG-Bench	超越 Opus 4.7	SVG 生成性能基准
BrowseComp	超越 Opus 4.7	自主网页浏览基准

值得关注的细节：M3 是「open-weights」（开放权重）模型，采用MIT License开源。这意味着开发者可以自由下载、修改、商用，而不仅仅是通过 API 调用。这与 OpenAI、Anthropic 的封闭策略形成鲜明对比。

图表加载中…

💡 一句话理解

理解 M3 的关键不在于单项评测分数，而在于它是首个将三项前沿能力整合到一个开源模型中的产品——这在 2026 年 6 月的时间点上，全球独此一家。

⚠️ 常见踩坑

所有性能数据均为 MiniMax 自报，在自有基础设施上运行。SWE-Bench Pro 是 2026 年新评测集，第三方独立复测尚未完成，数据需谨慎参考。

一.5、M3 发布后的市场反应与行业影响

M3 发布后，AI 行业在 24 小时内出现了密集的连锁反应，这一速度本身就说明了 M3 的影响力。

开发者社区的即时反馈：在 X（Twitter）和 Hacker News 上，M3 成为当天最热门的 AI 话题。开发者对 M3 的关注点集中在三个方向——首先是 MSA 架构的技术细节，许多开发者对 KV-Block 选择机制表示兴趣，认为这是稀疏注意力方向最有前景的方案之一；其次是 1M 上下文在代码仓库场景中的实际应用价值，有开发者立即开始测试 M3 在 50 万+ Token 代码库上的理解能力；最后是开源策略的深远影响，MIT License 使得 M3 成为国际开发者社区中最受关注的中国模型。

资本市场的反应：MiniMax 在发布 M3 的前一天宣布科创板辅导，两天后智谱也宣布港股+A 股双平台上市。中国 AI 模型的「技术发布 + 资本运作」同步推进正在成为一种模式。东方证券在 M3 发布当天发布的研报中，将 AI Coding 市场的总潜在市场（TAM）估算为 4000 亿美元，这一数字远超此前市场普遍预期的 1000-2000 亿美元。

竞争对手的动态：智谱在 M3 发布次日（6 月 2 日）即宣布 GLM-5.1 的开源计划，这被业界视为对 M3 的直接回应。月之暗面也在社交媒体上暗示将有"重大更新"。中国 AI 模型厂商之间的竞争正在从"能力比拼"升级为"生态竞争"——不只是谁的模型更强，而是谁的开源策略、定价策略和开发者工具链更能吸引用户。

图表加载中…

💡 一句话理解

如果你在关注中国 AI 模型的商业竞争格局，M3 的发布是一个关键的观察窗口——它同时触发了技术讨论、资本运作和竞争对手回应，这是中国 AI 行业发展的重要信号。

⚠️ 常见踩坑

行业 TAM 估算（4000 亿美元）基于替代程序员人力成本的假设，这是一个高度乐观的上限估算。实际市场规模可能在 500-1000 亿美元区间。

二、MSA 稀疏注意力架构：1M 上下文的技术基础

支撑 M3 三项能力合一的核心技术是其自研的MiniMax Sparse Attention（MSA）稀疏注意力架构。这是理解 M3 为何能在 100 万 Token 规模下保持高效的关键。

传统全注意力机制（Full Attention）的致命问题：在 Transformer 中，每个 Token 需要与序列中所有其他 Token 计算注意力，复杂度为 O(n²)。当 n=1,000,000 时，n²=10¹²，这在计算和内存上都是不可承受的。

MSA 的核心思路——KV-Block 选择：不计算所有 Token 对的注意力，而是通过一种智能的 KV 块选择机制，只计算与当前 Token 最相关的部分 KV 对。这类似于你在读一本 1000 页的书时，不需要每次都回顾所有 1000 页——你只需要回顾与当前段落最相关的那些页。

MSA 与 Flash Attention 的区别：

-Flash Attention：仍然计算完整注意力矩阵，只是通过分块计算和重计算优化内存访问效率
-MSA：从根本上减少需要计算的注意力对数量——只计算「必要的」注意力，跳过「不相关的」Token 对

MiniMax 官方披露的数据：在 100 万 Token 上下文规模下，M3 的单 Token 计算量仅为上一代模型（M2.7，使用全注意力）的约1/20。这意味着 M3 不仅支持更大的上下文窗口，而且在长上下文下的推理速度和成本都远优于传统架构。

图表加载中…

python

# 概念演示：全注意力 vs 稀疏注意力的计算量对比
import numpy as np

def full_attention_cost(seq_len):
    """全注意力：O(n²) 复杂度"""
    return seq_len ** 2

def sparse_attention_cost(seq_len, sparsity_ratio=0.05):
    """稀疏注意力：只计算 sparsity_ratio 比例的注意力对"""
    # MSA 通过 KV-Block 选择，只保留最相关的 Token 对
    return seq_len ** 2 * sparsity_ratio

seq_lens = [4096, 32768, 100000, 1000000]
print(f"{'序列长度':>10} | {'全注意力':>12} | {'MSA稀疏(5%)':>12} | {'节省比':>8}")
print("-" * 55)
for n in seq_lens:
    full = full_attention_cost(n)
    sparse = sparse_attention_cost(n, 0.05)
    ratio = full / sparse
    print(f"{n:>10,} | {full:>12,} | {sparse:>12,} | {ratio:>6.1f}x")

# 在 100 万 Token 时：
# 全注意力：1,000,000,000,000 次计算
# MSA(5%稀疏)：50,000,000,000 次计算 → 节省 20x

💡 一句话理解

MSA 的核心创新在于「选择性计算」——它不是对所有 Token 一视同仁，而是智能地决定哪些 Token 对需要计算注意力。这与人类阅读时「快速扫读+重点细读」的策略如出一辙。

⚠️ 常见踩坑

稀疏注意力的风险在于可能遗漏关键的远距离依赖关系。MSA 的 KV-Block 选择算法必须足够智能，否则在需要精确理解长距离语义关联的任务中（如长文档问答），性能可能下降。

三、1M 上下文的工程意义：为什么这很重要？

100 万 Token 的上下文窗口不是数字游戏——它直接改变了 AI 能解决的实际问题类型。

对比主流模型的上下文窗口：


模型	上下文窗口	等效内容量
GPT-5.5	128K Token	~96,000 字（约 1/3 本《红楼梦》）
Claude Opus 4.8	1M Token	~750,000 字（约 2.5 本《红楼梦》）
MiniMax M3	1M Token	~750,000 字
Kimi K2.6	256K Token	~192,000 字
Qwen3.7-Plus	256K Token	~192,000 字

1M 上下文的三个关键应用场景：

1.大型代码仓库理解：一个中型项目的全部源代码可能在 50-100 万 Token 范围内。M3 可以在一次推理中「看到」整个代码库，而不是像传统模型那样需要分块处理、丢失跨文件关联。这正是 M3 在 SWE-Bench Pro 上表现出色的关键原因。

2.长文档分析与对比：分析一份 200 页的财报、对比多份法律文件、理解整本技术手册——这些任务需要模型同时「持有」大量上下文，而不能只看局部。

3.多轮 Agent 对话：一个复杂的智能体任务可能涉及数百轮交互，每轮都需要保留历史上下文。MSA 在 1M Token 下计算量仅为上代的 1/20，使得长程 Agent 任务在成本上可行。

但 1M 上下文有一个关键前提：模型必须在长上下文中保持「大海捞针」能力——即从 100 万 Token 中准确找到并理解关键信息的能力。如果模型在长上下文中「迷失」，更大的窗口只会增加噪音而非价值。

场景	所需 Token 量	传统模型的问题	M3 的优势
中型代码仓库	50-100 万	分块处理丢失跨文件关联	一次推理完整理解
长财报/法律文件	20-50 万	截断丢失关键细节	完整输入不截断
多轮 Agent 对话	10-50 万	历史上下文丢失	全程保留交互记忆
视频理解（多帧）	50-200 万	帧数受限，时序信息丢失	完整视频帧序列输入

💡 一句话理解

如果你在处理代码仓库或长文档任务，1M 上下文带来的不是「能处理更多数据」，而是「能保持完整的上下文关联」——这是质的变化，不是量的变化。

⚠️ 常见踩坑

更大的上下文 ≠ 更好的结果。如果任务只需要 10K Token 的上下文，1M 窗口只会增加计算成本和延迟。选择模型时，上下文窗口要与任务需求匹配。

四、原生多模态训练：从第一步就融合

M3 的「原生多模态」与一些模型的「后融合多模态」有本质区别。

后融合多模态：先训练一个强大的语言模型，然后通过额外的适配层（Adapter）或微调来加入图像/视频理解能力。这种方式的问题在于多模态能力是「补丁」，与核心语言理解能力割裂。

原生多模态：从训练的第一步（Step 0）就开始使用文本、图片、视频的混合数据。M3 的训练数据规模达到 100 万亿 Token，且采用「交错数据」（Interleaved data）——文本和图像等其他模态在序列中交替自然排列。

MiniMax 在技术报告中强调：交错数据对模型性能的提升，比一般认为的更加关键。这意味着多模态训练不能简单理解为「文本 + 图像的简单拼接」，而是要让模型从一开始就学习跨模态的联合表示。

M3 的多模态能力具体包括：

图像理解：分析图片内容、提取信息、回答视觉问题
视频理解：处理视频帧序列，理解时序变化
Computer Use（桌面操作）：在复杂跨应用环境中，像人一样操作电脑——这是 M3 多模态能力的最高级体现，也是 Agent 任务的终极形态之一

一个震撼的案例：MiniMax 给 M3 一篇 ICLR 2025 杰出论文，让它独立复现。M3 连续运行近 12 小时，全程自主产出 18 次 Commit 与 23 张实验图表，成功跑通核心实验。这不仅展示了编码能力，更展示了长时间自主工作的稳定性和多模态输出能力。

图表加载中…

💡 一句话理解

原生多模态训练的核心优势在于：模型对视觉信息的理解不是「翻译」成语言再处理，而是直接的多模态联合推理。这在需要精确视觉-语言对齐的任务（如图表分析、UI 理解）中表现尤为明显。

⚠️ 常见踩坑

原生多模态的训练成本远高于后融合方案——需要多模态混合训练数据和更大的算力。M3 的 100 万亿 Token 训练规模，意味着 MiniMax 投入了巨大的计算资源。

五、SWE-Bench Pro 59%：编程能力的真实水平分析

M3 在 SWE-Bench Pro 17上取得 59%的成绩，超越 GPT-5.5 和 Gemini 3.1 Pro，接近 Claude Opus 4.7。这个数字意味着什么？ SWE-Bench Pro 是什么：2026 年新引入的更难版本的 SWE-Bench。原版 SWE-Bench Verified 使用 GitHub 上的真实 issue 作为评测任务，而 Pro 版本增加了更复杂的跨文件修改、依赖关系处理和工程级约束条件。 59% 意味着 M3 能独立解决近六成的真实软件工程问题。与竞品的对比（数据来源：BenchLM.ai，截至 2026 年 6 月 2 日）：| 排名 | 模型 | SWE-Bench Verified |
|------|------|-------------------|
| 1 | Claude Mythos Preview | 93.9% |
| 2 | Claude Opus 4.8 | 88.6% |
| 3 | Claude Opus 4.7 (Adaptive) | 87.6% |
| ... | ... | ... |
| ~9 | MiniMax M3524|~85%|
| ~10 | Qwen3.7 Max | ~84% |M3 的编程能力定位：在 SWE-Bench Verified 上，M3 排名全球约第 9 位，与 Qwen3.7 Max 处于同一梯队，在开源模型中处于领先地位。但需要理解两个关键约束： 1.Benchmark 均为厂商自报：所有分数都在 MiniMax 自己的基础设施上运行，未经第三方独立验证。这是一个普遍问题——不只是 MiniMax，几乎所有模型厂商都存在这个问题。
2.SWE-Bench 与实际工程能力的差距：能通过 SWE-Bench 不代表能在实际项目中替代工程师。SWE-Bench 评测的是「给一个 issue，修复它」的能力，而实际工程还涉及需求理解、架构设计、团队协作等。AI Master 的独立判断：M3 的编程能力确实达到了「前沿」水平——不是「最强」，但已经进入了「能实际用于生产环境」的区间。对于中小团队来说，M3 以开源+低价的方式提供了接近 Opus 4.7 水平的编程辅助能力，这是其最大的竞争力。

维度	MiniMax M3	Claude Opus 4.7	GPT-5.5	Qwen3.7 Max
SWE-Bench Pro	59%	59%	<59%	未公布
SWE-Bench Verified	~85%	87.6%	~82%	~84%
上下文窗口	1M	1M	128K	256K
开源	✅ MIT License	❌	❌	部分开源
API 百万 Token 输入价	4.2 元	未公开	未公开	未公开
订阅价	49 元/月 (6 亿 Token)	$20/月 (~20 万)	$20/月	免费+付费

💡 一句话理解

评估一个编程模型，不要只看 SWE-Bench 分数。更实用的是：在你的实际代码库上试用，看它是否能理解你的项目结构、框架约定和编码风格。

⚠️ 常见踩坑

不要因为一个模型在 SWE-Bench 上分数高就认为它可以替代工程师。当前所有 AI 编程工具的最佳使用方式是「辅助」——加速常见任务，而不是「替代」——独立完成所有开发工作。

六、定价策略与开源生态：中国 AI 的商业打法

M3 的定价策略值得深入分析——它同时包含API 定价和TokenPlan 订阅定价两种模式。

API 定价：百万 Token 输入 4.2 元（限时 7 天 5 折，折后 2.1 元/百万 Token）。这个价格在 7 天限时结束后将「显著上行」。对比来看：

-智谱 GLM-5.1：百万 Token 输入 6 元
-MiniMax M2.7：百万 Token 输入约 2.1 元（M3 限时折后价格持平 M2.7）
-M3 正式价 4.2 元：约为 M2.7 的 2 倍，但仍低于智谱 GLM-5.1

TokenPlan 订阅方案：
-Plus：49 元/月，6 亿 Token
-Max：119 元/月，18 亿 Token
-Ultra：469 元/月，55 亿 Token

与 Claude Pro 的对比：Claude Pro 20 美元/月（约 144 元人民币），提供的 Token 量远低于 MiniMax Plus 的 6 亿 Token。据新浪财经报道，MiniMax Plus 的 Token 容量约等于 Claude Pro 的 5 倍。

开源策略的商业逻辑：MIT License 开源意味着任何人都可以免费下载、修改、商用 M3 的权重。这看起来是「放弃收入」，但实际上：

1.API 市场：大多数开发者/企业不会自部署，而是使用 API——开源只是建立开发者心智的手段
2.自部署市场：需要算力和工程能力的团队会自部署——这部分本来就不是 API 收入的主要来源
3.生态锁定：开发者习惯了 M3 的 API 和工作流后，迁移成本很高

MiniMax Code 产品：与 M3 一起训练的 Agent 产品，支持 Agent Team 将大型任务拆解为多阶段、可并发、可动态调整的 Workflow。这是 MiniMax 的「Claude Code」——将 M3 的编程能力封装为可以直接使用的开发者工具。

图表加载中…

💡 一句话理解

MiniMax 的定价策略是一个精心设计的「漏斗」：开源建立生态 → 低价 API 吸引试用 → 订阅方案锁定长期用户 → MiniMax Code 产品实现生产力变现。每一步都为 IPO 增长故事贡献指标。

⚠️ 常见踩坑

M3 的 API 限时 5 折结束后价格将翻倍到 4.2 元/百万 Token。如果你在考虑长期使用，需要评估 5 折结束后的成本是否仍然划算。同时，中国《2017 年国家情报法》要求 MiniMax「支持、协助和配合」政府情报工作——这对海外企业用户来说是一个需要评估的合规风险。

七、竞争格局：M3 在中国 AI 模型中的定位

2026 年 6 月，中国 AI 模型市场呈现出多强并立的格局。M3 的发布进一步加剧了这一竞争。

中国 AI 模型三巨头格局：

1.智谱（GLM 系列）：工具链最完整（20+ 款 MCP 工具），GLM-5 已达到 8 小时级持续工作。最快响应开发者需求，港股+A 股双平台上市。
2.MiniMax（M 系列）：以「开源+多能力合一」为差异化定位，M3 填补了国内开源前沿模型的空白。同步推进 A 股 IPO。
3.月之暗面（Kimi 系列）：Kimi K2.6 在长程编码能力上领先，大幅增强 Agent 自主化执行能力。

M3 的相对优势与劣势：

-优势：唯一开源的前沿多能力模型、MSA 架构的长上下文效率、性价比最高的订阅方案
-劣势：在 Coding 领域是「追赶者」——智谱 GLM-5 和 Kimi K2.6 已先行建立了开发者心智；SWE-Bench 数据未经验证

全球视角：M3 是全球范围内除 OpenAI、Anthropic、Google 之外，少数同时具备 Coding+长上下文+多模态三合一能力的模型。它的开源策略使其成为国际开发者生态中最具吸引力的中国模型。

维度	智谱 GLM-5	MiniMax M3	Kimi K2.6
开源	部分开源	✅ MIT License	部分开源
上下文	未公开	1M Token	256K Token
编程能力	8 小时持续工作	SWE-Bench Pro 59%	长程编码增强
多模态	部分支持	✅ 原生多模态	部分支持
订阅价	未公开	49 元/月起	免费+付费
工具链	20+ MCP 工具	MiniMax Code	MCP 支持
上市进度	港股+A 股公告	科创板辅导中	未公开

💡 一句话理解

选择中国 AI 模型时：如果你需要最完整的工具链和开发者支持 → 智谱；如果你需要开源+性价比 → MiniMax M3；如果你需要长程编码能力 → Kimi K2.6。

⚠️ 常见踩坑

中国 AI 模型的竞争格局变化极快——2026 年已经发布了多个重大版本更新。本文的对比基于 2026 年 6 月的数据，后续可能会有新的模型发布或更新。

八、趋势预判：M3 之后，AI 竞争将走向何方？

M3 的发布揭示了 2026 年下半年 AI 竞争的三个关键趋势。

趋势一：Coding 与 Agentic 能力成为竞争主战场

正如阿里 CEO 吴泳铭所言：「大量公司的 API 需求增长，几乎大部分都是由 AI Coding 能力提升带来的。」从 OpenAI Codex 到 Claude Code 到 MiniMax Code，AI 编程已经从辅助工具进化为生产力平台。M3 的 SWE-Bench Pro 成绩表明，中国模型在这个战场上已经进入了全球第一梯队。

趋势二：长上下文从营销噱头变为实际刚需

随着 Agent 任务复杂度提升——多文件代码理解、长程对话记忆、多模态推理——1M+ Token 上下文正在从营销噱头变为实际刚需。MSA 等稀疏注意力架构的意义在于：让长上下文不仅在技术上可行，在成本上也可行。

趋势三：开源成为中国模型突围的差异化武器

OpenAI 和 Anthropic 选择了封闭路线，而中国模型（MiniMax、智谱、月之暗面）普遍采用不同程度的开源策略。开源不是免费——它是一种生态策略，通过降低使用门槛来快速扩大开发者基数。在全球 AI 竞争中，这可能成为中国模型的独特优势。

AI Master 的终局判断：M3 发布后，全球前沿模型市场形成了封闭三强（OpenAI、Anthropic、Google）对比开源三强（MiniMax、智谱、Kimi）的新格局。开源模型的能力正在逼近封闭模型，价格差距（10-20 倍）可能比能力差距（10-20%）更具决定性。在开发者预算有限的前提下，开源 + 低价的组合拳将在 2026 年下半年产生真正的市场冲击。

图表加载中…

💡 一句话理解

如果你是一个开发者或技术决策者，2026 年下半年是评估开源模型的最佳时机——能力已经接近前沿，价格远低于封闭模型，生态正在快速成熟。

⚠️ 常见踩坑

开源模型的合规风险不容忽视。中国《国家情报法》对数据隐私的影响需要海外企业认真评估。同时，开源模型的企业级支持（SLA、安全审计、合规认证）相比封闭模型仍有差距。

九、技术深度：MSA 与传统稀疏注意力的对比分析

为了真正理解 MSA 的技术价值，需要将其与已有的稀疏注意力方案进行系统对比。稀疏注意力并非新概念——从 Transformer 诞生以来，研究者一直在探索如何突破 O(n²) 的计算瓶颈。

Longformer（2020）：采用滑动窗口 + 全局注意力的混合策略。每个 Token 只关注窗口内的邻近 Token（滑动窗口），同时指定少量全局 Token 可以被所有 Token 关注。优点是计算效率高，缺点是需要人工指定全局 Token，灵活性差。

BigBird（2020）：在滑动窗口基础上增加了随机注意力——每个 Token 随机关注几个远距离 Token。理论基础更完善（证明了对 Transformer 的通用近似），但随机选择的效率不够稳定。

Routing Transformer（2020）：使用 k-means 聚类将相似 Token 分到同一组，组内计算完整注意力。理论上更智能，但聚类本身也有计算开销。

MSA 的独特之处：MiniMax Sparse Attention 采用KV-Block 选择机制——不是基于固定模式（滑动窗口）或随机选择，而是基于模型学习到的注意力稀疏模式，动态决定哪些 KV 块需要计算注意力。这与 Longformer 的固定模式和 BigBird 的随机模式有本质区别。

MSA 相比已有方案的优势：
1.动态选择 vs 固定模式：Longformer 的滑动窗口是固定的，MSA 根据内容动态决定关注哪些区域
2.端到端训练 vs 后处理：MSA 是模型架构的一部分，从训练开始就优化稀疏模式，而不是事后裁剪注意力
3.原生多模态支持：MSA 不仅处理文本 Token，还处理图像和视频 Token，跨模态的注意力稀疏模式更为复杂

但 MSA 也面临挑战：动态稀疏模式的选择本身需要计算开销，如何平衡「选择开销」和「注意力计算节省」是一个工程难题。MiniMax 宣称在 1M Token 下计算量减少到 1/20，但这一数据需要在不同任务类型下验证。

图表加载中…

方案	稀疏策略	复杂度	灵活性	代表模型
Longformer	滑动窗口+全局	O(n·w)	低（固定模式）	Longformer
BigBird	窗口+随机+全局	O(n·w)	中（随机选择）	BigBird
Routing Transformer	k-means 聚类	O(n·k)	高（但聚类有开销）	Routing Transformer
Flash Attention	分块计算（全注意力）	O(n²) 但常数小	全注意力	LLaMA 3
MSA	KV-Block 动态选择	O(n·k) 动态	高（学习到的模式）	MiniMax M3

💡 一句话理解

如果你在构建需要超长上下文的模型，MSA 的思路值得借鉴——动态稀疏模式是未来方向。但 Flash Attention 的优化技巧（分块计算、重计算）应该先用，因为它是通用优化，不改变模型行为。

⚠️ 常见踩坑

稀疏注意力的一个常见陷阱是：过度稀疏会丢失关键的远距离依赖关系。MSA 的 KV-Block 选择算法必须经过充分训练，否则在需要精确长距离理解的任务中性能会下降。

十、MiniMax 的技术路线图：从 M1 到 M3 的演进

理解 M3 的技术突破，需要回顾 MiniMax 的完整技术路线。MiniMax 并非「突然发布一个前沿模型」，而是有清晰技术路线的逐步演进。

M1（2024 年初）：MiniMax 的第一代基础模型，定位于对话和多模态理解。虽然在评测分数上不占优势，但在中文理解和多模态交互方面表现出色。M1 的关键贡献是建立了 MiniMax 的多模态训练基础设施。

M2 系列（2025 年中-2026 年初）：

M2：增强了编程能力，开始在 SWE-Bench 上取得可用分数
M2.5（2025 年底）：230B MoE 模型，10B 活跃参数，SWE-Bench Verified 达到 80.2%，以 1/20 的价格匹配 Opus 的编码能力——这是 MiniMax 在编程领域的「性价比杀手」
M2.7（2026 年 3 月）：引入自改进训练（autonomous self-evolution loops），模型能主动参与自身训练过程

M3（2026 年 6 月 1 日）：三大能力合一的里程碑——前沿 Coding + 1M 上下文 + 原生多模态，并且是开源的。M3 不是 M2.7 的简单升级，而是架构层面的重新设计（MSA 替代全注意力）。

技术路线的清晰信号：MiniMax 的每一步都围绕一个核心策略——「开源 + 性价比」切入市场，用工程化优势（长上下文效率、多模态融合、Agent 能力）建立差异化。这与 OpenAI 的「封闭 + 最强模型」和 Anthropic 的「封闭 + 最安全模型」形成鲜明对比。

markdown

# MiniMax 模型演进时间线

| 模型 | 发布时间 | 关键能力 | SWE-Bench Verified | 定位 |
|------|---------|---------|-------------------|------|
| M1 | 2024 Q1 | 对话+多模态理解 | N/A | 基础模型 |
| M2 | 2025 Q2 | 编程能力增强 | ~60% | 编程辅助 |
| M2.5 | 2025 Q4 | 230B MoE, 80.2% SWE | 80.2% | 性价比杀手 |
| M2.7 | 2026 Q1 | 自改进训练 | ~83% | 自主训练 |
| **M3** | **2026 Q2** | **1M 上下文+原生多模态+开源** | **~85%** | **全能开源** |

维度	M1	M2.5	M2.7	M3
上下文	32K	128K	128K	1M
注意力架构	全注意力	全注意力	全注意力	MSA 稀疏
多模态	后融合	部分原生	部分原生	完全原生
编程	基础	80.2% SWE	增强	SWE-Pro 59%
开源	否	否	否	MIT License
训练数据	~10T	~50T	~80T	100T

💡 一句话理解

技术路线的清晰性是评估一个 AI 公司长期竞争力的关键指标。MiniMax 的路线图表明它不是盲目追热点，而是在有策略地构建技术护城河。

⚠️ 常见踩坑

模型版本的数字命名（M1→M2→M3）不代表能力的线性增长。M3 相比 M2.7 是架构级重构（MSA 替代全注意力），这种变化带来的性能提升和成本降低，远超参数规模的线性增长。

十一、给开发者和企业的行动建议

基于对 MiniMax M3 的全面分析，本站为不同角色的用户群体提供以下行动建议。

对于独立开发者：
1.立即试用 M3 的限时 5 折 API——4.2 元/百万 Token（折后 2.1 元）的价格窗口只有 7 天。即使你当前不需要，也应该趁低价测试 M3 在你实际项目中的表现
2.下载开源权重——MIT License 意味着你可以在本地部署，完全消除 API 成本和隐私顾虑。如果你的开发机器有足够 GPU 内存（建议 24GB+），这是一个值得尝试的选项
3.对比测试——在同一个项目上，同时测试 M3、智谱 GLM-5 和 Kimi K2.6，用实际结果而非评测分数来选择工具

对于中小企业：
1.评估 TokenPlan 订阅方案——49 元/月的 Plus 计划提供 6 亿 Token，对于中小团队来说是性价比极高的选择。如果团队已有 Copilot/Claude Code，可以并行使用 M3 作为补充
2.关注数据安全——使用 M3 的 API 时，确保不上传敏感代码或商业机密。如果需要处理敏感数据，考虑本地部署开源权重
3.监控竞品动态——智谱和月之暗面可能在未来几周推出回应性更新，保持对行业竞争的关注

对于技术决策者：
1.将 M3 纳入技术选型候选——在下一个 AI 编程工具采购项目中，加入 M3 的评估
2.评估开源 vs 封闭的长期策略——M3 的开源路线代表了一种新的可能性——前沿能力 + 开源 + 低价。如果你的企业倾向于技术自主，这条路线值得关注
3.关注合规风险——中国《国家情报法》对数据处理的要求需要法务团队评估。如果企业有海外业务或合规要求，这是必须考虑的因素

对于 AI 研究者：
1.研究 MSA 架构——稀疏注意力是突破 Transformer 计算瓶颈的重要方向。MSA 的 KV-Block 选择机制是一个值得深入研究的课题
2.关注交错数据训练——MiniMax 强调交错数据对多模态性能的提升超出预期。这是一个值得在学术研究中验证的假设
3.参与开源社区——MIT License 开源意味着你可以自由研究、修改和贡献代码。这是建立技术影响力的好机会

图表加载中…

💡 一句话理解

如果你只能做一件事——立即下载 M3 的开源权重并试用。开源模型的窗口期往往很短，一旦市场验证了价值，后续可能会有许可证变更或限制条款。

⚠️ 常见踩坑

限时 5 折（2.1 元/百万 Token）结束后价格将翻倍到 4.2 元/百万 Token。如果你在折扣期外阅读本文，需要按正式价格评估成本。

🎯 相关面试题

结合本篇技术观点，备战 AI 岗位面试。

浏览全部面试题 →

MiniMax M3 深度解析：1M 上下文、原生多模态与中国模型的开源突围

文章摘要

前置阅读收获：三十秒了解本文核心价值

你将掌握的关键认知

一、事件概述：中国 AI 的又一次旗舰发布

一.5、M3 发布后的市场反应与行业影响

二、MSA 稀疏注意力架构：1M 上下文的技术基础

三、1M 上下文的工程意义：为什么这很重要？

四、原生多模态训练：从第一步就融合

五、SWE-Bench Pro 59%：编程能力的真实水平分析

六、定价策略与开源生态：中国 AI 的商业打法

七、竞争格局：M3 在中国 AI 模型中的定位

八、趋势预判：M3 之后，AI 竞争将走向何方？

九、技术深度：MSA 与传统稀疏注意力的对比分析

十、MiniMax 的技术路线图：从 M1 到 M3 的演进

十一、给开发者和企业的行动建议

标签

📚 相关文章推荐

Qwen3.6-27B 深度评测：27B 密集模型全面超越 397B MoE 旗舰——本地部署与 Agentic Coding 实战指南

2026 年 Agent 编程工具全景横评：从辅助到自主的范式转移

继续探索更多 AI 内容

觉得内容有帮助？请站长喝杯咖啡 ☕