2026-06-09站内改写2 分鐘閱讀更新: 2026-06-12

序列知識#874：Transformer還是不是？

Transformer架構目前是AI領域的參考架構，因其出色的擴充套件性而成為工業標準，但其注意力機制的計算成本高昂。文章探討了Transformer是否會是最終架構，還是隻是第一個真正可擴充套件的架構。

來源TheSequence作者: Jesus Rodriguez

Transformer架構目前在人工智慧領域佔據主導地位，它並非因為最接近大腦結構、設計最優雅或最高效而成為首選，而是因為它擁有最出色的擴充套件能力。透過增加資料量、引數規模、計算資源、上下文長度，以及採用更好的訓練和後期訓練方法，模型效能會以令人驚訝的平滑方式持續提升。這種特性在深度學習領域極為罕見：許多想法雖然巧妙，但能夠實現工業化的寥寥無幾。

Transformer的核心能力源於其注意力機制。每個令牌（token）都能關注其他所有令牌，並判斷哪些資訊更為重要。這一機制具有極高的通用性，適用於語言、程式碼、影像、音訊、影片、蛋白質序列、機器人令牌以及工具呼叫痕跡等多種資料型別。架構設計足夠簡單以便於擴充套件，具有足夠的並行性以支援高效訓練，同時具備足夠的表達能力來吸收海量資料集。

然而，這種強大能力也伴隨著明顯的代價：注意力計算成本高昂。完整的自注意力機制在序列長度增加時擴充套件性顯著下降。在自迴歸生成過程中，模型會累積一個鍵值快取（key-value cache），隨著上下文增長而不斷膨脹。Transformer透過維護一個大型、顯式、基於令牌索引的記憶來實現記憶功能。儘管這種設計非常強大，但並非是從第一性原理出發設計每一個智慧系統的最佳方式。

因此，關鍵問題並非“Transformer是否優秀？”——它們確實非常出色。真正的問題是：它們是否是最終的架構形態？或者，它們只是第一個真正可擴充套件的架構，很快將被更豐富的架構所吸收和超越？我傾向於第二種觀點。

替代架構的格局

在探索替代方案的過程中，研究人員提出了多種思路。例如，狀態空間模型（SSM）如Mamba，試圖透過更高效的狀態更新機制來替代注意力機制。線性注意力方法則透過近似計算降低複雜度。此外，還有一些混合架構，將卷積或迴圈網路與注意力機制結合，以平衡效能與效率。這些工作表明，Transformer雖然目前佔據主導地位，但遠非終點。未來可能出現融合不同思想的新架構，在保持擴充套件性的同時降低計算成本。

從更廣闊的視角看，Transformer的成功並非偶然，但它也暴露了當前深度學習正規化的侷限性。對更高效記憶機制、更優資料利用方式以及更接近人類認知的系統的追求，將繼續推動架構創新。無論最終答案如何，Transformer已經為AI的發展奠定了堅實的基礎，而探索之旅才剛剛開始。