序列知識 #870:液態模型與後Transformer架構探索
本文探討了Transformer架構的侷限性,以及液態模型作為一種有前景的替代方案,後者更適用於低延遲、隱私保護的端側智慧場景。
Transformer架構不僅成為現代AI的主流神經網路架構,更改變了我們對智慧實現的預設思維模型。其核心思想看似簡單:處理序列時,讓每個元素都能關注到所有其他元素。一個詞可以關注前面的詞,一個程式碼標記可以關注遙遠的變數,一個影像塊可以關注另一塊,一個工具呼叫可以關注數千個標記前的指令。注意力機制將序列建模轉化為一個巨大的可微分查詢表,覆蓋整個上下文。
這標誌著與迴圈神經網路時代的徹底決裂。之前的模型像從左到右閱讀的讀者,逐步更新隱藏狀態。而Transformer將這一時間過程扁平化為大規模平行計算。它不再將過去壓縮為單一狀態,而是讓模型直接暴露整個歷史。這使得訓練更容易,擴充套件更可預測,長距離關係也更易表達。
然而,每種架構都有其內在的物理限制。在Transformer中,這種物理是全域性互動——強大但代價高昂。自注意力機制要求標記之間相互比較。推理時,模型會累積一個鍵值快取,以便每個新標記都能關注過去。隨著上下文增長,記憶體消耗也增長;隨著模型規模擴大,服務複雜性上升;隨著智慧體執行時間延長、工具使用增多、本地化需求增強,顯式記憶所有內容的成本變得難以忽視。
Transformer是雲規模智慧的出色架構,但對於始終線上、低延遲、隱私保護、具身化、在裝置端執行的智慧而言,它未必是最終答案。
這使得液態模型進入了視野。液態模型(Liquid Models)轉向動力學方法,以更高效的方式處理時序依賴,無需全域性注意力。它們透過微分方程或動態系統模擬神經元活動,減少記憶體佔用,並支援自適應推理。這種架構有望在保持效能的同時,大幅降低功耗和延遲,從而適應端側部署需求。
探索後Transformer架構不僅是為了追求更高效的模型,更是為了解鎖在資源受限環境中實現高階AI的可能性。液態模型代表了這一方向上的重要嘗試,但遠非唯一。其他研究包括狀態空間模型、線性注意力、以及對注意力的稀疏化改造。未來的AI架構可能融合多種思路,在不同場景下動態切換。