2026-06-02 19:03 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

序列知識 #870：液態模型與後Transformer架構探索

本文探討了Transformer架構的侷限性，以及液態模型作為一種有前景的替代方案，後者更適用於低延遲、隱私保護的端側智能場景。

來源TheSequence作者: Jesus Rodriguez

Transformer架構不僅成為現代AI的主流神經網絡架構，更改變了我們對智能實現的默認思維模型。其核心思想看似簡單：處理序列時，讓每個元素都能關注到所有其他元素。一個詞可以關注前面的詞，一個代碼標記可以關注遙遠的變量，一個圖像塊可以關注另一塊，一個工具調用可以關注數千個標記前的指令。注意力機制將序列建模轉化為一個巨大的可微分查詢表，覆蓋整個上下文。

這標誌着與循環神經網絡時代的徹底決裂。之前的模型像從左到右閲讀的讀者，逐步更新隱藏狀態。而Transformer將這一時間過程扁平化為大規模並行計算。它不再將過去壓縮為單一狀態，而是讓模型直接暴露整個歷史。這使得訓練更容易，擴展更可預測，長距離關係也更易表達。

然而，每種架構都有其內在的物理限制。在Transformer中，這種物理是全局交互——強大但代價高昂。自注意力機制要求標記之間相互比較。推理時，模型會累積一個鍵值緩存，以便每個新標記都能關注過去。隨着上下文增長，內存消耗也增長；隨着模型規模擴大，服務複雜性上升；隨着智能體運行時間延長、工具使用增多、本地化需求增強，顯式記憶所有內容的成本變得難以忽視。

Transformer是雲規模智能的出色架構，但對於始終在線、低延遲、隱私保護、具身化、在設備端運行的智能而言，它未必是最終答案。

這使得液態模型進入了視野。液態模型（Liquid Models）轉向動力學方法，以更高效的方式處理時序依賴，無需全局注意力。它們通過微分方程或動態系統模擬神經元活動，減少內存佔用，並支持自適應推理。這種架構有望在保持性能的同時，大幅降低功耗和延遲，從而適應端側部署需求。

探索後Transformer架構不僅是為了追求更高效的模型，更是為了解鎖在資源受限環境中實現高級AI的可能性。液態模型代表了這一方向上的重要嘗試，但遠非唯一。其他研究包括狀態空間模型、線性注意力、以及對注意力的稀疏化改造。未來的AI架構可能融合多種思路，在不同場景下動態切換。