← 首页/AI 资讯

大语言模型今天·Latent Space

MiniMax 发布 M3 模型，稀疏注意力机制实现百万 Token 场景 15 倍解码加速

MiniMax 预告 M3 模型将开源，采用全新的块稀疏两阶段注意力机制，在 100 万 Token 上下文中预填充速度提升 9.7 倍、解码速度提升 15.6 倍。

MiniMax 在社交媒体上预告了 M3 模型的技术路线。

技术亮点：

稀疏注意力：采用基于真实 KV 的 GQA 块稀疏注意力，区别于 DeepSeek 的压缩注意力变体
性能提升：100 万 Token 场景下预填充加速 9.7 倍，解码加速 15.6 倍
开源路线：M3 将作为开源模型发布，进一步推动开源生态发展

与 DeepSeek 的对比：

DeepSeek V4 使用 MoE + 压缩注意力架构
MiniMax M3 回到 GQA + 块选择路径，代表不同的技术方向
两者都在探索稀疏注意力作为降低计算成本的核心方案

来源: Latent Space + X (Twitter)
链接: https://www.latent.space/p/ainews-new-ai-infra-decacorns-fireworks

📰 原始来源

https://www.latent.space/p/ainews-new-ai-infra-decacorns-fireworks

← 上一篇

Anthropic 计划公开 Claude Mythos 模型，安全护栏开发成关键门槛

下一篇 →

阿里发布 Qwen3.7-Max，Agent 基准全面超越 Claude Opus 4.6

📰 更多动态

行业2026-05-28

豆包付费引发大模型商业化拐点讨论，中国 AI 用户付费率仅 9.8%

行业2026-05-28

2026 年高考期间六大 AI 平台将限制答题功能，豆包、通义、元宝等集体响应

安全2026-05-28

思科安全研究：所有前沿 AI 模型都无法抵御多轮对抗攻击