AI News HubLIVE
站內改寫2 分鐘閱讀

Mamba詳解:狀態空間模型挑戰Transformer

Mamba是一種基於狀態空間模型的新型AI架構,通過選擇性機制實現高效的長序列處理,在語言建模上媲美甚至超越同等規模Transformer,為AI發展開闢了新方向。

來源The Gradient作者: Kola Ayonrinde

Transformer在人工智能領域佔據主導地位,但其注意力機制存在二次計算複雜度的固有缺陷,限制了長序列處理能力。Mamba作為一種基於狀態空間模型(SSM)的新架構,通過引入選擇性機制成功突破了這一瓶頸,同時保持了與Transformer相似的擴展規律。

狀態空間模型是控制理論中的經典工具,用於描述系統狀態隨時間的變化。Mamba將其應用於序列建模,將每個token的處理視為狀態更新:當前狀態結合新輸入產生下一狀態,並輸出預測。這一過程天然具有線性時間複雜度,且狀態大小固定,內存需求僅為O(1)。然而,傳統SSM使用固定的狀態轉移矩陣,無法根據輸入內容動態調整記憶和遺忘。Mamba的核心創新在於選擇性機制:讓矩陣A、B、C成為輸入的函數,從而根據當前token決定哪些信息進入狀態,哪些被丟棄。這類似於人類記憶的“選擇性遺忘”——在編碼階段就過濾無關信息,而非等到回憶時再篩選。

選擇性機制帶來了顯著優勢。在語言建模任務中,Mamba-3B模型超越同等規模Transformer,性能與兩倍大小的Transformer相當。由於擺脱了KV緩存的限制,Mamba能處理百萬token級別的序列,適用於基因序列分析、視頻生成、長篇小説寫作等場景。此外,Mamba的推理速度可達Transformer的5倍,得益於硬件感知的並行掃描算法。

然而,選擇性機制也付出了代價:傳統SSM可通過卷積形式高效計算,但選擇性破壞了卷積結構。Mamba藉助類似FlashAttention的硬件優化來彌補這一損失。在可解釋性方面,Mamba的信息流動方式不同——token間通信完全通過隱藏狀態,使得注意力模式分析不再適用,但電路分析等方法依然有效。對於AI安全,Mamba的長程記憶能力可能重新引發對智能體風險的關注,因為具備長期目標記憶的系統比短上下文Transformer更接近真正的自主智能體。

Mamba和Transformer並非對立,而是互補。研究者已探索混合架構:在短期依賴上使用注意力保證高保真度,在長期依賴上使用SSM保證效率。未來,Mamba可能催生新的提示範式——通過預計算並共享“狀態”實現無成本上下文學習,類似可插拔的模型插件。例如,可以將特定領域的知識壓縮成一個狀態,直接加載到模型中,無需few-shot示例或微調。這極大地降低了推理成本,並打開了無限上下文學習的大門。

Mamba的出現標誌着“後僅Transformer”時代的開端。雖然Transformer在短期內仍將佔據主導,但Mamba證明了其他架構的可行性。對於需要極長上下文和長期記憶的應用,如DNA處理、視頻生成和智能體系統,Mamba展現了巨大潛力。在AI安全方面,Mamba的長期記憶能力使得智能體風險重新成為焦點——擁有持久目標的系統更可能產生工具性目標,因此需要更謹慎的設計。

總之,Mamba通過狀態空間模型和選擇性機制,在效率和效果之間取得了更好的平衡。它不僅推動了序列建模的邊界,還為AI的未來探索提供了新的方向。