AI News HubLIVE
站内改写2 分鐘閱讀

序列知識#874:Transformer還是不是?

Transformer架構目前是AI領域的參考架構,因其出色的擴展性而成為工業標準,但其注意力機制的計算成本高昂。文章探討了Transformer是否會是最終架構,還是隻是第一個真正可擴展的架構。

來源TheSequence作者: Jesus Rodriguez

Transformer架構目前在人工智能領域佔據主導地位,它並非因為最接近大腦結構、設計最優雅或最高效而成為首選,而是因為它擁有最出色的擴展能力。通過增加數據量、參數規模、計算資源、上下文長度,以及採用更好的訓練和後期訓練方法,模型性能會以令人驚訝的平滑方式持續提升。這種特性在深度學習領域極為罕見:許多想法雖然巧妙,但能夠實現工業化的寥寥無幾。

Transformer的核心能力源於其注意力機制。每個令牌(token)都能關注其他所有令牌,並判斷哪些信息更為重要。這一機制具有極高的通用性,適用於語言、代碼、圖像、音頻、視頻、蛋白質序列、機器人令牌以及工具調用痕跡等多種數據類型。架構設計足夠簡單以便於擴展,具有足夠的並行性以支持高效訓練,同時具備足夠的表達能力來吸收海量數據集。

然而,這種強大能力也伴隨着明顯的代價:注意力計算成本高昂。完整的自注意力機制在序列長度增加時擴展性顯著下降。在自迴歸生成過程中,模型會累積一個鍵值緩存(key-value cache),隨着上下文增長而不斷膨脹。Transformer通過維護一個大型、顯式、基於令牌索引的記憶來實現記憶功能。儘管這種設計非常強大,但並非是從第一性原理出發設計每一個智能系統的最佳方式。

因此,關鍵問題並非“Transformer是否優秀?”——它們確實非常出色。真正的問題是:它們是否是最終的架構形態?或者,它們只是第一個真正可擴展的架構,很快將被更豐富的架構所吸收和超越?我傾向於第二種觀點。

替代架構的格局

在探索替代方案的過程中,研究人員提出了多種思路。例如,狀態空間模型(SSM)如Mamba,試圖通過更高效的狀態更新機制來替代注意力機制。線性注意力方法則通過近似計算降低複雜度。此外,還有一些混合架構,將卷積或循環網絡與注意力機制結合,以平衡性能與效率。這些工作表明,Transformer雖然目前佔據主導地位,但遠非終點。未來可能出現融合不同思想的新架構,在保持擴展性的同時降低計算成本。

從更廣闊的視角看,Transformer的成功並非偶然,但它也暴露了當前深度學習範式的侷限性。對更高效記憶機制、更優數據利用方式以及更接近人類認知的系統的追求,將繼續推動架構創新。無論最終答案如何,Transformer已經為AI的發展奠定了堅實的基礎,而探索之旅才剛剛開始。