2026-06-16站内改写3 分鐘閱讀更新: 2026-06-16

序列知識 #878：超越Transformer：我們學到的

本文總結了關於Transformer替代方案的系列文章，涵蓋四大類模型：遞歸/線性遞歸模型、狀態空間模型、文本擴散模型和液態/連續時間模型。同時宣佈將推出關於知識蒸餾的新系列。

來源TheSequence作者: Jesus Rodriguez

今天，我們為您帶來關於Transformer替代方案系列的總結。

過去近十年，整個領域幾乎都圍繞一個單一操作——自注意力——構建，並獲得了鉅額資金支持。Transformer之所以勝出，並非因為它設計最優雅或最接近人腦，而是因為它具有最佳的擴展性，並贏得了硬件彩票。每個token看向其他所有token，整個過程能幹淨地映射到GPU網格上，並行訓練。增加數據、參數、計算量或上下文長度，損失曲線依然配合。這種平滑性實屬罕見。深度學習中的大多數巧妙想法從未走向工業化，而Transformer做到了。

然而，代價始終顯而易見。自注意力帶來了真正有價值的東西——對整個上下文完美無損的回憶，每個token能直接尋址其他token，且訓練過程能對整個序列並行化。這是好處，也是實實在在的。但代價是注意力隨序列長度呈二次方縮放，而自迴歸解碼攜帶的KV緩存隨已生成的token數線性增長。當上下文長度超過百萬token，或70B模型的緩存消耗40GB VRAM時，O(n²)計算和O(n)內存就不再是註腳，而是實際的賬單。因此，有趣的問題從來不是“Transformer好嗎？”它們很棒。問題是，它們是最終架構，還是第一個真正可擴展的架構——即將被更豐富的東西所吸收。

這正是我們系列文章試圖檢驗的論點。最清晰的梳理方式是將八期內容分為四個家族，每個家族對注意力機制做出了不同的賭注。

第一家族是遞歸和線性遞歸模型——RNN的迴歸和xLSTM。它們的賣點是恆定內存：不再有無限增長的緩存，而是攜帶固定大小的隱藏狀態，序列上計算複雜度為O(n)而非O(n²)。傳統的反對理由是RNN訓練是串行的，無法飽和GPU，但現代變體重新設計了遞歸，使得在訓練時可並行化，同時推理時保持廉價。其好處是極其高效的生成；開放挑戰是固定大小的狀態能否容納足夠信息，以匹配注意力在長程、檢索密集型任務上的精確回憶。

第二家族是狀態空間模型——SSM/Mamba系列，這是最嚴肅的挑戰者。SSM將序列視為連續線性動力系統，因此擁有近乎神奇的二元形式：訓練時是可並行化的卷積，推理時是遞歸掃描。它們幾乎免費獲得線性縮放和長上下文處理。代價是表達能力——純SSM在精確的上下文複製和查找上可能表現不佳，這正是為什麼如今最強的結果是混合模型，在大量SSM層中穿插少量注意力層。

第三家族是文本擴散——一種完全放棄從左到右解碼的生成方式，通過少數幾步去噪，並行優化整個序列。好處是非自迴歸速度和生成時的雙向上下文；挑戰在於匹配自迴歸模型的原始質量和可控性，LLaDA、Gemini Diffusion和Mercury正在此方向上大力推進。

第四家族是液態和連續時間模型，它們完全拋棄了並行查找表的思想，轉而採用隨時間連續演化的動態，旨在構建更小、更具適應性的網絡。好處是參數效率和不同的歸納偏差；挑戰在於將此故事擴展到前沿規模。

這些替代方案均未推翻注意力機制。但單一文化已經結束，最可能的未來是顯式的混合架構：在需要精確回憶的地方使用注意力（付出二次方代價），其他地方使用線性時間模型。

以下是完整系列按順序列出：

#846 — 超越Transformer：新系列 — 開篇，描繪arXiv上後注意力架構的明顯轉向，以及我們圍繞自注意力度過的十年。規劃了映射每個主要Transformer替代方案的藍圖。

#850 — RNN的意外迴歸 — 論證遞歸網絡是最容易被忽視的替代方案，重新審視為何線性時間遞歸再次具有吸引力。將現代RNN變體定位為嚴肅的挑戰者而非遺蹟。

#854 — 王者歸來：揭開xLSTM架構 — 追溯從1990年代LSTM到2017年Transformer轉向，再到xLSTM（Hochreiter和Schmidhuber設計的現代復興）的譜系。解釋了重新設計的門控和縮放如何讓xLSTM能夠與基於注意力的模型競爭。

#858 — 狀態空間模型如何從好奇變成嚴肅的Transformer競爭者 — 描繪了隨着百萬token上下文和大型KV緩存成為實際約束，O(n²)注意力瓶頸如何凸顯，並論證狀態空間模型已悄然成熟為佔主導範式真正的對手。

#862 — 瞭解文本擴散模型 — 介紹文本擴散作為最可信的非自迴歸Transformer替代方案之一。涵蓋了擴散式生成如何從嚴格的從左到右下一token預測中解放出來。

#866 — 你需要了解的三款文本擴散模型 — 實際後續，介紹該領域的領先玩家：LLaDA、Gemini Diffusion和Mercury。比較它們各自如何實現基於擴散的文本生成。

#870 — 液態模型與後Transformer架構的探索 — 深入液態神經網絡作為更有前景的非Transformer架構之一，將其連續時間動態與注意力的並行查找表方法進行對比。將其置於更廣泛的繼任者探索背景下。

#874 — Transformer還是不是？ — 總結篇，詢問Transformer是最終架構還是第一個真正可擴展的架構，即將被更豐富的東西吸收。傾向於後者並概述了系列覆蓋的全部景觀。

下一步：關於蒸餾的新系列

如果上一個系列是關於改變架構，下一個系列則是關於壓縮它。我們將深入探討知識蒸餾——將大型、昂貴的教師模型的能力壓縮到一個更小、更快的學生的技術集合。這是現代AI中最不華麗但經濟上最重要的想法之一：這是前沿能力真正到達生產的方式。我們將涵蓋經典方法（logit匹配、原始的Hinton公式）、現代變體（序列級、在線策略和自我蒸餾）、什麼實際上轉移了什麼沒有，以及為什麼幾乎所有你能負擔得起的模型在某種意義上都是蒸餾的。我們下期見。