MiniMax 在社交媒体上预告了 M3 模型的技术路线。
技术亮点:
- 稀疏注意力:采用基于真实 KV 的 GQA 块稀疏注意力,区别于 DeepSeek 的压缩注意力变体
- 性能提升:100 万 Token 场景下预填充加速 9.7 倍,解码加速 15.6 倍
- 开源路线:M3 将作为开源模型发布,进一步推动开源生态发展
与 DeepSeek 的对比:
- DeepSeek V4 使用 MoE + 压缩注意力架构
- MiniMax M3 回到 GQA + 块选择路径,代表不同的技术方向
- 两者都在探索稀疏注意力作为降低计算成本的核心方案
来源: Latent Space + X (Twitter)
链接: https://www.latent.space/p/ainews-new-ai-infra-decacorns-fireworks