序列知識 #858:狀態空間模型如何從新奇之物蜕變為Transformer的強勁對手
狀態空間模型(SSM)憑藉線性時間複雜度和恆定內存推理,正在挑戰Transformer在序列建模中的主導地位。本文梳理了SSM的數學基礎、發展歷程及其在語言建模等任務上的表現,指出其已逐漸具備與Transformer競爭的能力。
在機器學習研究中,有一種現象:某條技術路線默默無聞地進步多年,然後某天突然崛起,與主流範式並駕齊驅。狀態空間模型(State Space Models, SSM)正處在這一高光時刻。
過去八年裏,Transformer是唯一真正重要的架構。自注意力機制、鍵值緩存、下一個詞預測——這些幾乎成了我們思考的全部。原因很簡單:它有效。但Transformer有一個眾所周知卻尚未完全解決的問題:自注意力的複雜度是序列長度的O(n²)。當上下文窗口需要超過百萬個token,或者在70B模型上推理時KV緩存獨佔了40GB顯存,二次方縮放就不再是理論概念,而是實際的工程瓶頸。
狀態空間模型提供了完全不同的方案:線性時間複雜度、推理時恆定內存、無需KV緩存。過去三年,人們一直追問:它能否在語言建模困惑度、上下文學習、推理等關鍵任務上匹敵Transformer?截至2026年3月,答案日益清晰:可以。
以下是SSM的發展歷程。
數學基礎
狀態空間模型源自控制理論中的狀態空間表示,通過隱藏狀態動態更新來處理序列。與傳統遞歸神經網絡不同,SSM通過結構化參數化實現了高效的並行訓練和推理。其核心思想是將序列建模視為線性動態系統,從而將複雜度從O(n²)降至O(n)。
關鍵突破
早期的SSM在長程依賴任務上表現不佳,但近年來引入的HiPPO初始化、卷積加速和選擇機制(如Mamba模型)徹底改變了局面。Mamba通過選擇性狀態空間(Selective State Space)讓模型根據輸入動態調整狀態更新,顯著提升了語言建模性能。
實際表現
截至2026年初,Mamba及其變體在多項基準測試中與同規模Transformer持平甚至更優。更重要的是,SSM在推理效率上具有明顯優勢:對於長序列,其延遲和內存佔用遠低於Transformer。這使得SSM在長上下文應用(如文檔理解、代碼生成)中極具吸引力。
挑戰與未來
SSM並非沒有短板。它在需要大量上下文交互的任務(如複雜推理)上仍弱於Transformer。此外,硬件利用率優化和社區生態建設也在進行中。但不可否認,狀態空間模型已從一個學術好奇心成長為Transformer的有力競爭者,未來有望在更多場景中發揮作用。