2024-03-28 09:24 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

Mamba詳解：狀態空間模型挑戰Transformer

Mamba是一種基於狀態空間模型的新型AI架構，通過選擇性機制實現高效的長序列處理，在語言建模上媲美甚至超越同等規模Transformer，為AI發展開闢了新方向。

來源The Gradient作者: Kola Ayonrinde

Transformer在人工智能領域佔據主導地位，但其注意力機制存在二次計算複雜度的固有缺陷，限制了長序列處理能力。Mamba作為一種基於狀態空間模型（SSM）的新架構，通過引入選擇性機制成功突破了這一瓶頸，同時保持了與Transformer相似的擴展規律。

狀態空間模型是控制理論中的經典工具，用於描述系統狀態隨時間的變化。Mamba將其應用於序列建模，將每個token的處理視為狀態更新：當前狀態結合新輸入產生下一狀態，並輸出預測。這一過程天然具有線性時間複雜度，且狀態大小固定，內存需求僅為O(1)。然而，傳統SSM使用固定的狀態轉移矩陣，無法根據輸入內容動態調整記憶和遺忘。Mamba的核心創新在於選擇性機制：讓矩陣A、B、C成為輸入的函數，從而根據當前token決定哪些信息進入狀態，哪些被丟棄。這類似於人類記憶的“選擇性遺忘”——在編碼階段就過濾無關信息，而非等到回憶時再篩選。

選擇性機制帶來了顯著優勢。在語言建模任務中，Mamba-3B模型超越同等規模Transformer，性能與兩倍大小的Transformer相當。由於擺脱了KV緩存的限制，Mamba能處理百萬token級別的序列，適用於基因序列分析、視頻生成、長篇小説寫作等場景。此外，Mamba的推理速度可達Transformer的5倍，得益於硬件感知的並行掃描算法。

然而，選擇性機制也付出了代價：傳統SSM可通過卷積形式高效計算，但選擇性破壞了卷積結構。Mamba藉助類似FlashAttention的硬件優化來彌補這一損失。在可解釋性方面，Mamba的信息流動方式不同——token間通信完全通過隱藏狀態，使得注意力模式分析不再適用，但電路分析等方法依然有效。對於AI安全，Mamba的長程記憶能力可能重新引發對智能體風險的關注，因為具備長期目標記憶的系統比短上下文Transformer更接近真正的自主智能體。

Mamba和Transformer並非對立，而是互補。研究者已探索混合架構：在短期依賴上使用注意力保證高保真度，在長期依賴上使用SSM保證效率。未來，Mamba可能催生新的提示範式——通過預計算並共享“狀態”實現無成本上下文學習，類似可插拔的模型插件。例如，可以將特定領域的知識壓縮成一個狀態，直接加載到模型中，無需few-shot示例或微調。這極大地降低了推理成本，並打開了無限上下文學習的大門。

Mamba的出現標誌着“後僅Transformer”時代的開端。雖然Transformer在短期內仍將佔據主導，但Mamba證明了其他架構的可行性。對於需要極長上下文和長期記憶的應用，如DNA處理、視頻生成和智能體系統，Mamba展現了巨大潛力。在AI安全方面，Mamba的長期記憶能力使得智能體風險重新成為焦點——擁有持久目標的系統更可能產生工具性目標，因此需要更謹慎的設計。

總之，Mamba通過狀態空間模型和選擇性機制，在效率和效果之間取得了更好的平衡。它不僅推動了序列建模的邊界，還為AI的未來探索提供了新的方向。