2026-06-09站内改写2 分鐘閱讀更新: 2026-06-12

序列知識#874：Transformer還是不是？

Transformer架構目前是AI領域的參考架構，因其出色的擴展性而成為工業標準，但其注意力機制的計算成本高昂。文章探討了Transformer是否會是最終架構，還是隻是第一個真正可擴展的架構。

來源TheSequence作者: Jesus Rodriguez

Transformer架構目前在人工智能領域佔據主導地位，它並非因為最接近大腦結構、設計最優雅或最高效而成為首選，而是因為它擁有最出色的擴展能力。通過增加數據量、參數規模、計算資源、上下文長度，以及採用更好的訓練和後期訓練方法，模型性能會以令人驚訝的平滑方式持續提升。這種特性在深度學習領域極為罕見：許多想法雖然巧妙，但能夠實現工業化的寥寥無幾。

Transformer的核心能力源於其注意力機制。每個令牌（token）都能關注其他所有令牌，並判斷哪些信息更為重要。這一機制具有極高的通用性，適用於語言、代碼、圖像、音頻、視頻、蛋白質序列、機器人令牌以及工具調用痕跡等多種數據類型。架構設計足夠簡單以便於擴展，具有足夠的並行性以支持高效訓練，同時具備足夠的表達能力來吸收海量數據集。

然而，這種強大能力也伴隨着明顯的代價：注意力計算成本高昂。完整的自注意力機制在序列長度增加時擴展性顯著下降。在自迴歸生成過程中，模型會累積一個鍵值緩存（key-value cache），隨着上下文增長而不斷膨脹。Transformer通過維護一個大型、顯式、基於令牌索引的記憶來實現記憶功能。儘管這種設計非常強大，但並非是從第一性原理出發設計每一個智能系統的最佳方式。

因此，關鍵問題並非“Transformer是否優秀？”——它們確實非常出色。真正的問題是：它們是否是最終的架構形態？或者，它們只是第一個真正可擴展的架構，很快將被更豐富的架構所吸收和超越？我傾向於第二種觀點。

替代架構的格局

在探索替代方案的過程中，研究人員提出了多種思路。例如，狀態空間模型（SSM）如Mamba，試圖通過更高效的狀態更新機制來替代注意力機制。線性注意力方法則通過近似計算降低複雜度。此外，還有一些混合架構，將卷積或循環網絡與注意力機制結合，以平衡性能與效率。這些工作表明，Transformer雖然目前佔據主導地位，但遠非終點。未來可能出現融合不同思想的新架構，在保持擴展性的同時降低計算成本。

從更廣闊的視角看，Transformer的成功並非偶然，但它也暴露了當前深度學習範式的侷限性。對更高效記憶機制、更優數據利用方式以及更接近人類認知的系統的追求，將繼續推動架構創新。無論最終答案如何，Transformer已經為AI的發展奠定了堅實的基礎，而探索之旅才剛剛開始。