2026-06-16站内改写3 分钟阅读更新: 2026-06-16

序列知识 #878：超越Transformer：我们学到的

本文总结了关于Transformer替代方案的系列文章，涵盖四大类模型：递归/线性递归模型、状态空间模型、文本扩散模型和液态/连续时间模型。同时宣布将推出关于知识蒸馏的新系列。

来源TheSequence作者: Jesus Rodriguez

今天，我们为您带来关于Transformer替代方案系列的总结。

过去近十年，整个领域几乎都围绕一个单一操作——自注意力——构建，并获得了巨额资金支持。Transformer之所以胜出，并非因为它设计最优雅或最接近人脑，而是因为它具有最佳的扩展性，并赢得了硬件彩票。每个token看向其他所有token，整个过程能干净地映射到GPU网格上，并行训练。增加数据、参数、计算量或上下文长度，损失曲线依然配合。这种平滑性实属罕见。深度学习中的大多数巧妙想法从未走向工业化，而Transformer做到了。

然而，代价始终显而易见。自注意力带来了真正有价值的东西——对整个上下文完美无损的回忆，每个token能直接寻址其他token，且训练过程能对整个序列并行化。这是好处，也是实实在在的。但代价是注意力随序列长度呈二次方缩放，而自回归解码携带的KV缓存随已生成的token数线性增长。当上下文长度超过百万token，或70B模型的缓存消耗40GB VRAM时，O(n²)计算和O(n)内存就不再是注脚，而是实际的账单。因此，有趣的问题从来不是“Transformer好吗？”它们很棒。问题是，它们是最終架构，还是第一个真正可扩展的架构——即将被更丰富的东西所吸收。

这正是我们系列文章试图检验的论点。最清晰的梳理方式是将八期内容分为四个家族，每个家族对注意力机制做出了不同的赌注。

第一家族是递归和线性递归模型——RNN的回归和xLSTM。它们的卖点是恒定内存：不再有无限增长的缓存，而是携带固定大小的隐藏状态，序列上计算复杂度为O(n)而非O(n²)。传统的反对理由是RNN训练是串行的，无法饱和GPU，但现代变体重新设计了递归，使得在训练时可并行化，同时推理时保持廉价。其好处是极其高效的生成；开放挑战是固定大小的状态能否容纳足够信息，以匹配注意力在长程、检索密集型任务上的精确回忆。

第二家族是状态空间模型——SSM/Mamba系列，这是最严肃的挑战者。SSM将序列视为连续线性动力系统，因此拥有近乎神奇的二元形式：训练时是可并行化的卷积，推理时是递归扫描。它们几乎免费获得线性缩放和长上下文处理。代价是表达能力——纯SSM在精确的上下文复制和查找上可能表现不佳，这正是为什么如今最强的结果是混合模型，在大量SSM层中穿插少量注意力层。

第三家族是文本扩散——一种完全放弃从左到右解码的生成方式，通过少数几步去噪，并行优化整个序列。好处是非自回归速度和生成时的双向上下文；挑战在于匹配自回归模型的原始质量和可控性，LLaDA、Gemini Diffusion和Mercury正在此方向上大力推进。

第四家族是液态和连续时间模型，它们完全抛弃了并行查找表的思想，转而采用随时间连续演化的动态，旨在构建更小、更具适应性的网络。好处是参数效率和不同的归纳偏差；挑战在于将此故事扩展到前沿规模。

这些替代方案均未推翻注意力机制。但单一文化已经结束，最可能的未来是显式的混合架构：在需要精确回忆的地方使用注意力（付出二次方代价），其他地方使用线性时间模型。

以下是完整系列按顺序列出：

#846 — 超越Transformer：新系列 — 开篇，描绘arXiv上后注意力架构的明显转向，以及我们围绕自注意力度过的十年。规划了映射每个主要Transformer替代方案的蓝图。

#850 — RNN的意外回归 — 论证递归网络是最容易被忽视的替代方案，重新审视为何线性时间递归再次具有吸引力。将现代RNN变体定位为严肃的挑战者而非遗迹。

#854 — 王者归来：揭开xLSTM架构 — 追溯从1990年代LSTM到2017年Transformer转向，再到xLSTM（Hochreiter和Schmidhuber设计的现代复兴）的谱系。解释了重新设计的门控和缩放如何让xLSTM能够与基于注意力的模型竞争。

#858 — 状态空间模型如何从好奇变成严肃的Transformer竞争者 — 描绘了随着百万token上下文和大型KV缓存成为实际约束，O(n²)注意力瓶颈如何凸显，并论证状态空间模型已悄然成熟为占主导范式真正的对手。

#862 — 了解文本扩散模型 — 介绍文本扩散作为最可信的非自回归Transformer替代方案之一。涵盖了扩散式生成如何从严格的从左到右下一token预测中解放出来。

#866 — 你需要了解的三款文本扩散模型 — 实际后续，介绍该领域的领先玩家：LLaDA、Gemini Diffusion和Mercury。比较它们各自如何实现基于扩散的文本生成。

#870 — 液态模型与后Transformer架构的探索 — 深入液态神经网络作为更有前景的非Transformer架构之一，将其连续时间动态与注意力的并行查找表方法进行对比。将其置于更广泛的继任者探索背景下。

#874 — Transformer还是不是？ — 总结篇，询问Transformer是最终架构还是第一个真正可扩展的架构，即将被更丰富的东西吸收。倾向于后者并概述了系列覆盖的全部景观。

下一步：关于蒸馏的新系列

如果上一个系列是关于改变架构，下一个系列则是关于压缩它。我们将深入探讨知识蒸馏——将大型、昂贵的教师模型的能力压缩到一个更小、更快的学生的技术集合。这是现代AI中最不华丽但经济上最重要的想法之一：这是前沿能力真正到达生产的方式。我们将涵盖经典方法（logit匹配、原始的Hinton公式）、现代变体（序列级、在线策略和自我蒸馏）、什么实际上转移了什么没有，以及为什么几乎所有你能负担得起的模型在某种意义上都是蒸馏的。我们下期见。