2023-01-27 08:00 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

Transformer家族2.0版

本文是Lilian Weng對2020年《Transformer家族》一文的重大更新，篇幅翻倍。文章系統梳理了近年來Transformer架構的眾多改進，涵蓋注意力機制、位置編碼、長上下文支持、自適應建模和高效注意力等核心主題，並納入Transformer-XL、Rotary位置嵌入、ALiBi、通用Transformer等最新進展。

來源Lilian Weng

本文是Lilian Weng於2023年1月27日發佈的博客文章，是對她2020年同名文章的全面更新。原文篇幅翻倍，結構重新組織，並融入了過去三年中大量新的Transformer架構改進。文章系統介紹了Transformer的基礎知識、注意力機制、位置編碼、長上下文處理、自適應建模以及高效注意力等核心主題，並涵蓋了Transformer-XL、Compressive Transformer、kNN-LM、SPALM、Memorizing Transformer、DA-Transformer、ALiBi、Universal Transformer、自適應注意力跨度、深度自適應Transformer以及多種稀疏注意力模式等最新進展。

文章首先回顧了Transformer的基礎：縮放點積注意力、多頭自注意力以及編碼器-解碼器架構。注意力機制允許模型有選擇地關注輸入數據的特定部分，而自注意力則關注同一序列的不同位置。多頭注意力通過並行計算多個子空間豐富了表示能力。編碼器-解碼器結構分別用於生成上下文感知的表示和提取信息。

位置編碼是Transformer的關鍵，因為自注意力是置換不變的。文章詳細介紹了多種位置編碼方法：正弦位置編碼使用不同頻率的正弦和餘弦函數；學習位置編碼為每個位置分配可學習向量；相對位置編碼（Shaw et al.）編碼位置偏移；Transformer-XL提出了一種基於點積重參數化的相對位置編碼；旋轉位置嵌入（RoPE）利用旋轉矩陣將相對位置信息注入每一層。這些方法對於模型理解序列順序至關重要。

為了支持更長的上下文，研究者提出了多種改進。Transformer-XL通過引入段級別的循環連接和記憶來重用前一隱藏狀態，從而擴展注意力範圍。Compressive Transformer進一步壓縮舊記憶以支持更長的序列。kNN-LM和SPALM使用外部鍵值存儲作為非可微長期記憶，通過最近鄰檢索增強預測。Memorizing Transformer在解碼器頂部添加了kNN增強的注意力層。此外，DA-Transformer和ALiBi通過基於距離的偏置項調整注意力分數，鼓勵模型外推至更長的上下文。Universal Transformer則將遞歸機制與Transformer結合，通過自適應計算時間動態調整處理步數。

自適應建模方面，自適應注意力跨度（Sukhbaatar et al.）允許每個注意力頭學習最優的注意力範圍，通過軟掩碼和L1正則化實現。深度自適應Transformer（Elabyad et al.）和CALM（Schuster et al.）則在推理時動態決定每個令牌需要經過的層數，以平衡速度和性能。這些方法顯著降低了計算成本。

高效注意力旨在解決標準Transformer二次複雜度的問題。文章介紹了多種稀疏注意力模式，包括固定局部上下文（如圖像Transformer）、步進上下文、局部與全局組合等。低秩注意力通過矩陣分解進一步降低複雜度。這些改進使得Transformer能夠處理更長的序列，同時保持計算可行性。

總之，自2020年以來，Transformer架構在多個維度上取得了顯著進步，這些改進不僅提升了模型性能，還擴展了其應用範圍，特別是在自然語言處理和強化學習領域。