AI News HubLIVE
站内改写2 分钟阅读

Mamba详解:状态空间模型挑战Transformer

Mamba是一种基于状态空间模型的新型AI架构,通过选择性机制实现高效的长序列处理,在语言建模上媲美甚至超越同等规模Transformer,为AI发展开辟了新方向。

来源The Gradient作者: Kola Ayonrinde

Transformer在人工智能领域占据主导地位,但其注意力机制存在二次计算复杂度的固有缺陷,限制了长序列处理能力。Mamba作为一种基于状态空间模型(SSM)的新架构,通过引入选择性机制成功突破了这一瓶颈,同时保持了与Transformer相似的扩展规律。

状态空间模型是控制理论中的经典工具,用于描述系统状态随时间的变化。Mamba将其应用于序列建模,将每个token的处理视为状态更新:当前状态结合新输入产生下一状态,并输出预测。这一过程天然具有线性时间复杂度,且状态大小固定,内存需求仅为O(1)。然而,传统SSM使用固定的状态转移矩阵,无法根据输入内容动态调整记忆和遗忘。Mamba的核心创新在于选择性机制:让矩阵A、B、C成为输入的函数,从而根据当前token决定哪些信息进入状态,哪些被丢弃。这类似于人类记忆的“选择性遗忘”——在编码阶段就过滤无关信息,而非等到回忆时再筛选。

选择性机制带来了显著优势。在语言建模任务中,Mamba-3B模型超越同等规模Transformer,性能与两倍大小的Transformer相当。由于摆脱了KV缓存的限制,Mamba能处理百万token级别的序列,适用于基因序列分析、视频生成、长篇小说写作等场景。此外,Mamba的推理速度可达Transformer的5倍,得益于硬件感知的并行扫描算法。

然而,选择性机制也付出了代价:传统SSM可通过卷积形式高效计算,但选择性破坏了卷积结构。Mamba借助类似FlashAttention的硬件优化来弥补这一损失。在可解释性方面,Mamba的信息流动方式不同——token间通信完全通过隐藏状态,使得注意力模式分析不再适用,但电路分析等方法依然有效。对于AI安全,Mamba的长程记忆能力可能重新引发对智能体风险的关注,因为具备长期目标记忆的系统比短上下文Transformer更接近真正的自主智能体。

Mamba和Transformer并非对立,而是互补。研究者已探索混合架构:在短期依赖上使用注意力保证高保真度,在长期依赖上使用SSM保证效率。未来,Mamba可能催生新的提示范式——通过预计算并共享“状态”实现无成本上下文学习,类似可插拔的模型插件。例如,可以将特定领域的知识压缩成一个状态,直接加载到模型中,无需few-shot示例或微调。这极大地降低了推理成本,并打开了无限上下文学习的大门。

Mamba的出现标志着“后仅Transformer”时代的开端。虽然Transformer在短期内仍将占据主导,但Mamba证明了其他架构的可行性。对于需要极长上下文和长期记忆的应用,如DNA处理、视频生成和智能体系统,Mamba展现了巨大潜力。在AI安全方面,Mamba的长期记忆能力使得智能体风险重新成为焦点——拥有持久目标的系统更可能产生工具性目标,因此需要更谨慎的设计。

总之,Mamba通过状态空间模型和选择性机制,在效率和效果之间取得了更好的平衡。它不仅推动了序列建模的边界,还为AI的未来探索提供了新的方向。