Mamba(曼巴架构)
就是把 RNN 改造成能像 Transformer 一样看懂上下文,但推理速度快得多、显存占用还是线性的
亦作、亦称:曼巴架构 · State Space Model · SSM · Selective State Space · selective state space model · S6 · 曼巴
Mamba 是 2023 年提出的选择性状态空间序列模型,以线性时间复杂度实现媲美 Transformer 的语言建模能力。它通过让模型参数随输入动态调整,赋予 SSM 内容感知能力,同时保持推理阶段的恒定内存占用。
概述
Mamba 是继 S4 之后状态空间模型(SSM)发展的重要里程碑,旨在解决 Transformer 在长序列上的二次复杂度瓶颈。
- 提出背景:Transformer 注意力计算为 O(n²),长序列场景下计算量和显存均随长度平方增长
- 核心目标:在保留内容感知推理能力的前提下,将序列建模复杂度降至 O(n)
- 架构特点:去除传统 SSM 中固定参数的限制,引入输入依赖参数化(选择性机制)
- 发布形式:开源代码发布于 GitHub state-spaces/mamba,论文同步挂于 arXiv
- 影响力:发布后迅速引发视觉、语音、生物序列等多领域的 Mamba 变体研究热潮
工作原理
Mamba 的核心是将经典线性时不变 SSM 扩展为输入依赖的选择性 SSM(S6)。
- 状态空间方程:隐状态 h(t) = A·h(t-1) + B·x(t),输出 y(t) = C·h(t);其中矩阵 A、B、C 在 Mamba 中随输入 x(t) 动态生成
- 选择性机制:B、C 和步长 Δ 均由输入线性投影得到,使模型能按内容决定信息保留量,类似注意力的内容感知效果
- 硬件感知并行扫描:训练时采用 GPU SRAM 优化的并行前缀扫描,避免实体化大型中间矩阵,兼顾速度与内存
- 推理模式切换:推理时退化为标准 RNN 递归,状态固定大小,延迟和内存均为 O(1)
- 简化的 Mamba Block:每个块仅含 SSM + 门控线性单元(GLU),无多头注意力和独立 FFN
主要变体
Mamba 发布后,学术界和工业界涌现出大量变体,覆盖多模态和多任务场景。
- Mamba-2(2024):引入 SSD(State Space Duality)框架,将 SSM 与注意力机制统一,状态维度扩至 128,训练速度提升 2–8 倍
- Vision Mamba / VMamba:引入双向扫描和跨扫描模块,将 Mamba 适配到图像分类、语义分割等视觉任务
- Hybrid Mamba:将 Mamba 层与少量自注意力层混合,如 Mamba-2-Hybrid(8B,24 Mamba-2 + 4 注意力 + 28 MLP),在 12 项短上下文基准上超越同规模纯 Transformer
- Samba:结合 Mamba 与滑动窗口注意力,支持无限长上下文语言建模
- 生物医疗 Mamba:在基因组序列、医学图像分割(如 P-Mamba)等领域的专用变体
应用场景
Mamba 的线性复杂度和高效推理使其在以下场景具有显著优势。
- 长文本语言建模:超长上下文文档理解、书籍摘要、代码补全等需要处理数万 token 的任务
- 计算机视觉:高分辨率图像分类(Vision Mamba)、视频理解、3D 点云处理
- 生物序列分析:基因组序列建模(Mamba 已用于 DNA 语言模型),蛋白质结构预测辅助
- 强化学习:Drama 等工作将 Mamba 用于基于模型的强化学习,提升样本效率
- 时序预测:金融、气象等长序列时间预测任务,受益于线性推理延迟
与 Transformer 的对比
Mamba 与 Transformer 在设计哲学和工程特性上存在根本差异,两者各有适用场合。
- 计算复杂度:Mamba 训练 O(n log n)(并行扫描)、推理 O(1);Transformer 注意力训练与推理均为 O(n²)
- 内容感知能力:传统 SSM 固定参数,无法做内容推理;Mamba 通过选择性机制弥补此缺口,但对精确随机访问(如 in-context lookup)仍弱于 Transformer
- 显存占用:长序列下 Mamba 显存占用近似线性,Transformer KV Cache 随序列长度线性增长(总量更大)
- 生态成熟度:Transformer 拥有更丰富的工具链、预训练模型和社区支持
- 实践结论:对超长序列(>100K token)Mamba 优势明显;中等长度任务混合架构往往是最优折中
局限与误区
尽管 Mamba 性能出色,使用时仍需了解其局限性和常见误解。
- 误区:Mamba 完全取代 Transformer:当前主流趋势是混合架构,纯 Mamba 在需要精确位置推理的任务上仍有差距
- 随机访问弱势:隐状态是对历史的压缩摘要,无法像注意力那样精确检索特定位置的历史 token
- 训练效率:并行扫描相比 FlashAttention 实现复杂度更高,工程优化难度较大
- 硬件支持:高效实现依赖 CUDA 自定义算子,在 TPU 或 CPU 上的优化程度不及 Transformer
- 超长依赖遗忘:状态维度有限,极长序列中早期信息可能逐渐被稀释,需要合理配置状态大小
发展脉络
Mamba 是状态空间模型系列研究的集大成者,有清晰的演进路径。
- 2021:Albert Gu 提出 S4(Structured State Space Sequence Model),首次展示 SSM 在长程依赖建模上的潜力
- 2022:S4D、DSS、Liquid S4 等变体改进 S4 的训练稳定性和表达能力
- 2023-12:Mamba(S6)发布,引入选择性机制,arXiv:2312.00752,首次让 SSM 具备内容感知能力并在语言任务上对齐 Transformer
- 2024:Vision Mamba、VMamba、Samba 等多模态变体涌现;Mamba-2(SSD 框架)发布,状态维度提升 8 倍,训练效率大幅改善
- 2024 下半年:Mamba-2-Hybrid 等混合架构在工业级 LLM 训练中取得超越同规模 Transformer 的成绩
- 2025 至今:Mamba 持续渗透至生物信息学、遥感、医学影像等垂直领域
常见误解
日常交流中容易听到的简化说法,未必准确,但能帮助理解误解从何而来。
- 「就是把 RNN 改造成能像 Transformer 一样看懂上下文,但推理速度快得多、显存占用还是线性的」
- 「可以理解为:给状态空间模型装上了一个『选择器』,让它自己决定哪些历史信息值得记住」
- 「Mamba 不用注意力,但效果能跟同量级 Transformer 媲美,长文本场景下还快很多」
相关术语
和本术语关联紧密的其他词条,便于串联理解。
延伸阅读
从知识库精选 1 篇文章,帮助深入理解该术语。
外部参考
维基百科:查看「Mamba」词条本页内容为本站原创撰写;维基百科链接仅作延伸参考。