Mamba（曼巴架构）

就是把 RNN 改造成能像 Transformer 一样看懂上下文，但推理速度快得多、显存占用还是线性的

亦作、亦称：曼巴架构 · State Space Model · SSM · Selective State Space · selective state space model · S6 · 曼巴

Mamba 是 2023 年提出的选择性状态空间序列模型，以线性时间复杂度实现媲美 Transformer 的语言建模能力。它通过让模型参数随输入动态调整，赋予 SSM 内容感知能力，同时保持推理阶段的恒定内存占用。

概述

Mamba 是继 S4 之后状态空间模型（SSM）发展的重要里程碑，旨在解决 Transformer 在长序列上的二次复杂度瓶颈。

Mamba 的核心是将经典线性时不变 SSM 扩展为输入依赖的选择性 SSM（S6）。

状态空间方程：隐状态 h(t) = A·h(t-1) + B·x(t)，输出 y(t) = C·h(t)；其中矩阵 A、B、C 在 Mamba 中随输入 x(t) 动态生成
选择性机制：B、C 和步长 Δ 均由输入线性投影得到，使模型能按内容决定信息保留量，类似注意力的内容感知效果
硬件感知并行扫描：训练时采用 GPU SRAM 优化的并行前缀扫描，避免实体化大型中间矩阵，兼顾速度与内存
推理模式切换：推理时退化为标准 RNN 递归，状态固定大小，延迟和内存均为 O(1)
简化的 Mamba Block：每个块仅含 SSM + 门控线性单元（GLU），无多头注意力和独立 FFN

Mamba 发布后，学术界和工业界涌现出大量变体，覆盖多模态和多任务场景。

Mamba-2（2024）：引入 SSD（State Space Duality）框架，将 SSM 与注意力机制统一，状态维度扩至 128，训练速度提升 2–8 倍
Vision Mamba / VMamba：引入双向扫描和跨扫描模块，将 Mamba 适配到图像分类、语义分割等视觉任务
Hybrid Mamba：将 Mamba 层与少量自注意力层混合，如 Mamba-2-Hybrid（8B，24 Mamba-2 + 4 注意力 + 28 MLP），在 12 项短上下文基准上超越同规模纯 Transformer
Samba：结合 Mamba 与滑动窗口注意力，支持无限长上下文语言建模
生物医疗 Mamba：在基因组序列、医学图像分割（如 P-Mamba）等领域的专用变体

Mamba 的线性复杂度和高效推理使其在以下场景具有显著优势。

Mamba 与 Transformer 在设计哲学和工程特性上存在根本差异，两者各有适用场合。

计算复杂度：Mamba 训练 O(n log n)（并行扫描）、推理 O(1)；Transformer 注意力训练与推理均为 O(n²)
内容感知能力：传统 SSM 固定参数，无法做内容推理；Mamba 通过选择性机制弥补此缺口，但对精确随机访问（如 in-context lookup）仍弱于 Transformer
显存占用：长序列下 Mamba 显存占用近似线性，Transformer KV Cache 随序列长度线性增长（总量更大）
生态成熟度：Transformer 拥有更丰富的工具链、预训练模型和社区支持
实践结论：对超长序列（>100K token）Mamba 优势明显；中等长度任务混合架构往往是最优折中

尽管 Mamba 性能出色，使用时仍需了解其局限性和常见误解。

Mamba 是状态空间模型系列研究的集大成者，有清晰的演进路径。

2021：Albert Gu 提出 S4（Structured State Space Sequence Model），首次展示 SSM 在长程依赖建模上的潜力
2022：S4D、DSS、Liquid S4 等变体改进 S4 的训练稳定性和表达能力
2023-12：Mamba（S6）发布，引入选择性机制，arXiv:2312.00752，首次让 SSM 具备内容感知能力并在语言任务上对齐 Transformer
2024：Vision Mamba、VMamba、Samba 等多模态变体涌现；Mamba-2（SSD 框架）发布，状态维度提升 8 倍，训练效率大幅改善
2024 下半年：Mamba-2-Hybrid 等混合架构在工业级 LLM 训练中取得超越同规模 Transformer 的成绩
2025 至今：Mamba 持续渗透至生物信息学、遥感、医学影像等垂直领域

日常交流中容易听到的简化说法，未必准确，但能帮助理解误解从何而来。

本页内容为本站原创撰写；维基百科链接仅作延伸参考。