序列知識 #858:狀態空間模型如何從新奇之物蛻變為Transformer的強勁對手
狀態空間模型(SSM)憑藉線性時間複雜度和恆定記憶體推理,正在挑戰Transformer在序列建模中的主導地位。本文梳理了SSM的數學基礎、發展歷程及其在語言建模等任務上的表現,指出其已逐漸具備與Transformer競爭的能力。
在機器學習研究中,有一種現象:某條技術路線默默無聞地進步多年,然後某天突然崛起,與主流正規化並駕齊驅。狀態空間模型(State Space Models, SSM)正處在這一高光時刻。
過去八年裡,Transformer是唯一真正重要的架構。自注意力機制、鍵值快取、下一個詞預測——這些幾乎成了我們思考的全部。原因很簡單:它有效。但Transformer有一個眾所周知卻尚未完全解決的問題:自注意力的複雜度是序列長度的O(n²)。當上下文視窗需要超過百萬個token,或者在70B模型上推理時KV快取獨佔了40GB視訊記憶體,二次方縮放就不再是理論概念,而是實際的工程瓶頸。
狀態空間模型提供了完全不同的方案:線性時間複雜度、推理時恆定記憶體、無需KV快取。過去三年,人們一直追問:它能否在語言建模困惑度、上下文學習、推理等關鍵任務上匹敵Transformer?截至2026年3月,答案日益清晰:可以。
以下是SSM的發展歷程。
數學基礎
狀態空間模型源自控制理論中的狀態空間表示,透過隱藏狀態動態更新來處理序列。與傳統遞迴神經網路不同,SSM透過結構化引數化實現了高效的並行訓練和推理。其核心思想是將序列建模視為線性動態系統,從而將複雜度從O(n²)降至O(n)。
關鍵突破
早期的SSM在長程依賴任務上表現不佳,但近年來引入的HiPPO初始化、卷積加速和選擇機制(如Mamba模型)徹底改變了局面。Mamba透過選擇性狀態空間(Selective State Space)讓模型根據輸入動態調整狀態更新,顯著提升了語言建模效能。
實際表現
截至2026年初,Mamba及其變體在多項基準測試中與同規模Transformer持平甚至更優。更重要的是,SSM在推理效率上具有明顯優勢:對於長序列,其延遲和記憶體佔用遠低於Transformer。這使得SSM在長上下文應用(如文件理解、程式碼生成)中極具吸引力。
挑戰與未來
SSM並非沒有短板。它在需要大量上下文互動的任務(如複雜推理)上仍弱於Transformer。此外,硬體利用率最佳化和社群生態建設也在進行中。但不可否認,狀態空間模型已從一個學術好奇心成長為Transformer的有力競爭者,未來有望在更多場景中發揮作用。