大语言模型今天·Latent Space

MiniMax 发布 M3 模型,稀疏注意力机制实现百万 Token 场景 15 倍解码加速

MiniMax 预告 M3 模型将开源,采用全新的块稀疏两阶段注意力机制,在 100 万 Token 上下文中预填充速度提升 9.7 倍、解码速度提升 15.6 倍。

MiniMax 在社交媒体上预告了 M3 模型的技术路线。

技术亮点:

  • 稀疏注意力:采用基于真实 KV 的 GQA 块稀疏注意力,区别于 DeepSeek 的压缩注意力变体
  • 性能提升:100 万 Token 场景下预填充加速 9.7 倍,解码加速 15.6 倍
  • 开源路线:M3 将作为开源模型发布,进一步推动开源生态发展

与 DeepSeek 的对比:

  • DeepSeek V4 使用 MoE + 压缩注意力架构
  • MiniMax M3 回到 GQA + 块选择路径,代表不同的技术方向
  • 两者都在探索稀疏注意力作为降低计算成本的核心方案

来源: Latent Space + X (Twitter)
链接: https://www.latent.space/p/ainews-new-ai-infra-decacorns-fireworks