序列知識 #878:超越Transformer:我們學到的
本文總結了關於Transformer替代方案的系列文章,涵蓋四大類模型:遞歸/線性遞歸模型、狀態空間模型、文本擴散模型和液態/連續時間模型。同時宣佈將推出關於知識蒸餾的新系列。
今天,我們為您帶來關於Transformer替代方案系列的總結。
過去近十年,整個領域幾乎都圍繞一個單一操作——自注意力——構建,並獲得了鉅額資金支持。Transformer之所以勝出,並非因為它設計最優雅或最接近人腦,而是因為它具有最佳的擴展性,並贏得了硬件彩票。每個token看向其他所有token,整個過程能幹淨地映射到GPU網格上,並行訓練。增加數據、參數、計算量或上下文長度,損失曲線依然配合。這種平滑性實屬罕見。深度學習中的大多數巧妙想法從未走向工業化,而Transformer做到了。
然而,代價始終顯而易見。自注意力帶來了真正有價值的東西——對整個上下文完美無損的回憶,每個token能直接尋址其他token,且訓練過程能對整個序列並行化。這是好處,也是實實在在的。但代價是注意力隨序列長度呈二次方縮放,而自迴歸解碼攜帶的KV緩存隨已生成的token數線性增長。當上下文長度超過百萬token,或70B模型的緩存消耗40GB VRAM時,O(n²)計算和O(n)內存就不再是註腳,而是實際的賬單。因此,有趣的問題從來不是“Transformer好嗎?”它們很棒。問題是,它們是最終架構,還是第一個真正可擴展的架構——即將被更豐富的東西所吸收。
這正是我們系列文章試圖檢驗的論點。最清晰的梳理方式是將八期內容分為四個家族,每個家族對注意力機制做出了不同的賭注。
第一家族是遞歸和線性遞歸模型——RNN的迴歸和xLSTM。它們的賣點是恆定內存:不再有無限增長的緩存,而是攜帶固定大小的隱藏狀態,序列上計算複雜度為O(n)而非O(n²)。傳統的反對理由是RNN訓練是串行的,無法飽和GPU,但現代變體重新設計了遞歸,使得在訓練時可並行化,同時推理時保持廉價。其好處是極其高效的生成;開放挑戰是固定大小的狀態能否容納足夠信息,以匹配注意力在長程、檢索密集型任務上的精確回憶。
第二家族是狀態空間模型——SSM/Mamba系列,這是最嚴肅的挑戰者。SSM將序列視為連續線性動力系統,因此擁有近乎神奇的二元形式:訓練時是可並行化的卷積,推理時是遞歸掃描。它們幾乎免費獲得線性縮放和長上下文處理。代價是表達能力——純SSM在精確的上下文複製和查找上可能表現不佳,這正是為什麼如今最強的結果是混合模型,在大量SSM層中穿插少量注意力層。
第三家族是文本擴散——一種完全放棄從左到右解碼的生成方式,通過少數幾步去噪,並行優化整個序列。好處是非自迴歸速度和生成時的雙向上下文;挑戰在於匹配自迴歸模型的原始質量和可控性,LLaDA、Gemini Diffusion和Mercury正在此方向上大力推進。
第四家族是液態和連續時間模型,它們完全拋棄了並行查找表的思想,轉而採用隨時間連續演化的動態,旨在構建更小、更具適應性的網絡。好處是參數效率和不同的歸納偏差;挑戰在於將此故事擴展到前沿規模。
這些替代方案均未推翻注意力機制。但單一文化已經結束,最可能的未來是顯式的混合架構:在需要精確回憶的地方使用注意力(付出二次方代價),其他地方使用線性時間模型。
以下是完整系列按順序列出:
#846 — 超越Transformer:新系列 — 開篇,描繪arXiv上後注意力架構的明顯轉向,以及我們圍繞自注意力度過的十年。規劃了映射每個主要Transformer替代方案的藍圖。
#850 — RNN的意外迴歸 — 論證遞歸網絡是最容易被忽視的替代方案,重新審視為何線性時間遞歸再次具有吸引力。將現代RNN變體定位為嚴肅的挑戰者而非遺蹟。
#854 — 王者歸來:揭開xLSTM架構 — 追溯從1990年代LSTM到2017年Transformer轉向,再到xLSTM(Hochreiter和Schmidhuber設計的現代復興)的譜系。解釋了重新設計的門控和縮放如何讓xLSTM能夠與基於注意力的模型競爭。
#858 — 狀態空間模型如何從好奇變成嚴肅的Transformer競爭者 — 描繪了隨着百萬token上下文和大型KV緩存成為實際約束,O(n²)注意力瓶頸如何凸顯,並論證狀態空間模型已悄然成熟為佔主導範式真正的對手。
#862 — 瞭解文本擴散模型 — 介紹文本擴散作為最可信的非自迴歸Transformer替代方案之一。涵蓋了擴散式生成如何從嚴格的從左到右下一token預測中解放出來。
#866 — 你需要了解的三款文本擴散模型 — 實際後續,介紹該領域的領先玩家:LLaDA、Gemini Diffusion和Mercury。比較它們各自如何實現基於擴散的文本生成。
#870 — 液態模型與後Transformer架構的探索 — 深入液態神經網絡作為更有前景的非Transformer架構之一,將其連續時間動態與注意力的並行查找表方法進行對比。將其置於更廣泛的繼任者探索背景下。
#874 — Transformer還是不是? — 總結篇,詢問Transformer是最終架構還是第一個真正可擴展的架構,即將被更豐富的東西吸收。傾向於後者並概述了系列覆蓋的全部景觀。
下一步:關於蒸餾的新系列
如果上一個系列是關於改變架構,下一個系列則是關於壓縮它。我們將深入探討知識蒸餾——將大型、昂貴的教師模型的能力壓縮到一個更小、更快的學生的技術集合。這是現代AI中最不華麗但經濟上最重要的想法之一:這是前沿能力真正到達生產的方式。我們將涵蓋經典方法(logit匹配、原始的Hinton公式)、現代變體(序列級、在線策略和自我蒸餾)、什麼實際上轉移了什麼沒有,以及為什麼幾乎所有你能負擔得起的模型在某種意義上都是蒸餾的。我們下期見。