2024-03-28 09:24 UTC+8站内改写2 分钟阅读更新: 2026-06-27 08:25 UTC+8

Mamba详解：状态空间模型挑战Transformer

Mamba是一种基于状态空间模型的新型AI架构，通过选择性机制实现高效的长序列处理，在语言建模上媲美甚至超越同等规模Transformer，为AI发展开辟了新方向。

来源The Gradient作者: Kola Ayonrinde

Transformer在人工智能领域占据主导地位，但其注意力机制存在二次计算复杂度的固有缺陷，限制了长序列处理能力。Mamba作为一种基于状态空间模型（SSM）的新架构，通过引入选择性机制成功突破了这一瓶颈，同时保持了与Transformer相似的扩展规律。

状态空间模型是控制理论中的经典工具，用于描述系统状态随时间的变化。Mamba将其应用于序列建模，将每个token的处理视为状态更新：当前状态结合新输入产生下一状态，并输出预测。这一过程天然具有线性时间复杂度，且状态大小固定，内存需求仅为O(1)。然而，传统SSM使用固定的状态转移矩阵，无法根据输入内容动态调整记忆和遗忘。Mamba的核心创新在于选择性机制：让矩阵A、B、C成为输入的函数，从而根据当前token决定哪些信息进入状态，哪些被丢弃。这类似于人类记忆的“选择性遗忘”——在编码阶段就过滤无关信息，而非等到回忆时再筛选。

选择性机制带来了显著优势。在语言建模任务中，Mamba-3B模型超越同等规模Transformer，性能与两倍大小的Transformer相当。由于摆脱了KV缓存的限制，Mamba能处理百万token级别的序列，适用于基因序列分析、视频生成、长篇小说写作等场景。此外，Mamba的推理速度可达Transformer的5倍，得益于硬件感知的并行扫描算法。

然而，选择性机制也付出了代价：传统SSM可通过卷积形式高效计算，但选择性破坏了卷积结构。Mamba借助类似FlashAttention的硬件优化来弥补这一损失。在可解释性方面，Mamba的信息流动方式不同——token间通信完全通过隐藏状态，使得注意力模式分析不再适用，但电路分析等方法依然有效。对于AI安全，Mamba的长程记忆能力可能重新引发对智能体风险的关注，因为具备长期目标记忆的系统比短上下文Transformer更接近真正的自主智能体。

Mamba和Transformer并非对立，而是互补。研究者已探索混合架构：在短期依赖上使用注意力保证高保真度，在长期依赖上使用SSM保证效率。未来，Mamba可能催生新的提示范式——通过预计算并共享“状态”实现无成本上下文学习，类似可插拔的模型插件。例如，可以将特定领域的知识压缩成一个状态，直接加载到模型中，无需few-shot示例或微调。这极大地降低了推理成本，并打开了无限上下文学习的大门。

Mamba的出现标志着“后仅Transformer”时代的开端。虽然Transformer在短期内仍将占据主导，但Mamba证明了其他架构的可行性。对于需要极长上下文和长期记忆的应用，如DNA处理、视频生成和智能体系统，Mamba展现了巨大潜力。在AI安全方面，Mamba的长期记忆能力使得智能体风险重新成为焦点——拥有持久目标的系统更可能产生工具性目标，因此需要更谨慎的设计。

总之，Mamba通过状态空间模型和选择性机制，在效率和效果之间取得了更好的平衡。它不仅推动了序列建模的边界，还为AI的未来探索提供了新的方向。