AI News HubLIVE
站内改写2 分鐘閱讀

序列知識#874:Transformer還是不是?

Transformer架構目前是AI領域的參考架構,因其出色的擴充套件性而成為工業標準,但其注意力機制的計算成本高昂。文章探討了Transformer是否會是最終架構,還是隻是第一個真正可擴充套件的架構。

來源TheSequence作者: Jesus Rodriguez

Transformer架構目前在人工智慧領域佔據主導地位,它並非因為最接近大腦結構、設計最優雅或最高效而成為首選,而是因為它擁有最出色的擴充套件能力。透過增加資料量、引數規模、計算資源、上下文長度,以及採用更好的訓練和後期訓練方法,模型效能會以令人驚訝的平滑方式持續提升。這種特性在深度學習領域極為罕見:許多想法雖然巧妙,但能夠實現工業化的寥寥無幾。

Transformer的核心能力源於其注意力機制。每個令牌(token)都能關注其他所有令牌,並判斷哪些資訊更為重要。這一機制具有極高的通用性,適用於語言、程式碼、影像、音訊、影片、蛋白質序列、機器人令牌以及工具呼叫痕跡等多種資料型別。架構設計足夠簡單以便於擴充套件,具有足夠的並行性以支援高效訓練,同時具備足夠的表達能力來吸收海量資料集。

然而,這種強大能力也伴隨著明顯的代價:注意力計算成本高昂。完整的自注意力機制在序列長度增加時擴充套件性顯著下降。在自迴歸生成過程中,模型會累積一個鍵值快取(key-value cache),隨著上下文增長而不斷膨脹。Transformer透過維護一個大型、顯式、基於令牌索引的記憶來實現記憶功能。儘管這種設計非常強大,但並非是從第一性原理出發設計每一個智慧系統的最佳方式。

因此,關鍵問題並非“Transformer是否優秀?”——它們確實非常出色。真正的問題是:它們是否是最終的架構形態?或者,它們只是第一個真正可擴充套件的架構,很快將被更豐富的架構所吸收和超越?我傾向於第二種觀點。

替代架構的格局

在探索替代方案的過程中,研究人員提出了多種思路。例如,狀態空間模型(SSM)如Mamba,試圖透過更高效的狀態更新機制來替代注意力機制。線性注意力方法則透過近似計算降低複雜度。此外,還有一些混合架構,將卷積或迴圈網路與注意力機制結合,以平衡效能與效率。這些工作表明,Transformer雖然目前佔據主導地位,但遠非終點。未來可能出現融合不同思想的新架構,在保持擴充套件性的同時降低計算成本。

從更廣闊的視角看,Transformer的成功並非偶然,但它也暴露了當前深度學習正規化的侷限性。對更高效記憶機制、更優資料利用方式以及更接近人類認知的系統的追求,將繼續推動架構創新。無論最終答案如何,Transformer已經為AI的發展奠定了堅實的基礎,而探索之旅才剛剛開始。