2026-06-02 19:03 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

序列知識 #870：液態模型與後Transformer架構探索

本文探討了Transformer架構的侷限性，以及液態模型作為一種有前景的替代方案，後者更適用於低延遲、隱私保護的端側智慧場景。

來源TheSequence作者: Jesus Rodriguez

Transformer架構不僅成為現代AI的主流神經網路架構，更改變了我們對智慧實現的預設思維模型。其核心思想看似簡單：處理序列時，讓每個元素都能關注到所有其他元素。一個詞可以關注前面的詞，一個程式碼標記可以關注遙遠的變數，一個影像塊可以關注另一塊，一個工具呼叫可以關注數千個標記前的指令。注意力機制將序列建模轉化為一個巨大的可微分查詢表，覆蓋整個上下文。

這標誌著與迴圈神經網路時代的徹底決裂。之前的模型像從左到右閱讀的讀者，逐步更新隱藏狀態。而Transformer將這一時間過程扁平化為大規模平行計算。它不再將過去壓縮為單一狀態，而是讓模型直接暴露整個歷史。這使得訓練更容易，擴充套件更可預測，長距離關係也更易表達。

然而，每種架構都有其內在的物理限制。在Transformer中，這種物理是全域性互動——強大但代價高昂。自注意力機制要求標記之間相互比較。推理時，模型會累積一個鍵值快取，以便每個新標記都能關注過去。隨著上下文增長，記憶體消耗也增長；隨著模型規模擴大，服務複雜性上升；隨著智慧體執行時間延長、工具使用增多、本地化需求增強，顯式記憶所有內容的成本變得難以忽視。

Transformer是雲規模智慧的出色架構，但對於始終線上、低延遲、隱私保護、具身化、在裝置端執行的智慧而言，它未必是最終答案。

這使得液態模型進入了視野。液態模型（Liquid Models）轉向動力學方法，以更高效的方式處理時序依賴，無需全域性注意力。它們透過微分方程或動態系統模擬神經元活動，減少記憶體佔用，並支援自適應推理。這種架構有望在保持效能的同時，大幅降低功耗和延遲，從而適應端側部署需求。

探索後Transformer架構不僅是為了追求更高效的模型，更是為了解鎖在資源受限環境中實現高階AI的可能性。液態模型代表了這一方向上的重要嘗試，但遠非唯一。其他研究包括狀態空間模型、線性注意力、以及對注意力的稀疏化改造。未來的AI架構可能融合多種思路，在不同場景下動態切換。