序列知识 #878:超越Transformer:我们学到的
本文总结了关于Transformer替代方案的系列文章,涵盖四大类模型:递归/线性递归模型、状态空间模型、文本扩散模型和液态/连续时间模型。同时宣布将推出关于知识蒸馏的新系列。
今天,我们为您带来关于Transformer替代方案系列的总结。
过去近十年,整个领域几乎都围绕一个单一操作——自注意力——构建,并获得了巨额资金支持。Transformer之所以胜出,并非因为它设计最优雅或最接近人脑,而是因为它具有最佳的扩展性,并赢得了硬件彩票。每个token看向其他所有token,整个过程能干净地映射到GPU网格上,并行训练。增加数据、参数、计算量或上下文长度,损失曲线依然配合。这种平滑性实属罕见。深度学习中的大多数巧妙想法从未走向工业化,而Transformer做到了。
然而,代价始终显而易见。自注意力带来了真正有价值的东西——对整个上下文完美无损的回忆,每个token能直接寻址其他token,且训练过程能对整个序列并行化。这是好处,也是实实在在的。但代价是注意力随序列长度呈二次方缩放,而自回归解码携带的KV缓存随已生成的token数线性增长。当上下文长度超过百万token,或70B模型的缓存消耗40GB VRAM时,O(n²)计算和O(n)内存就不再是注脚,而是实际的账单。因此,有趣的问题从来不是“Transformer好吗?”它们很棒。问题是,它们是最終架构,还是第一个真正可扩展的架构——即将被更丰富的东西所吸收。
这正是我们系列文章试图检验的论点。最清晰的梳理方式是将八期内容分为四个家族,每个家族对注意力机制做出了不同的赌注。
第一家族是递归和线性递归模型——RNN的回归和xLSTM。它们的卖点是恒定内存:不再有无限增长的缓存,而是携带固定大小的隐藏状态,序列上计算复杂度为O(n)而非O(n²)。传统的反对理由是RNN训练是串行的,无法饱和GPU,但现代变体重新设计了递归,使得在训练时可并行化,同时推理时保持廉价。其好处是极其高效的生成;开放挑战是固定大小的状态能否容纳足够信息,以匹配注意力在长程、检索密集型任务上的精确回忆。
第二家族是状态空间模型——SSM/Mamba系列,这是最严肃的挑战者。SSM将序列视为连续线性动力系统,因此拥有近乎神奇的二元形式:训练时是可并行化的卷积,推理时是递归扫描。它们几乎免费获得线性缩放和长上下文处理。代价是表达能力——纯SSM在精确的上下文复制和查找上可能表现不佳,这正是为什么如今最强的结果是混合模型,在大量SSM层中穿插少量注意力层。
第三家族是文本扩散——一种完全放弃从左到右解码的生成方式,通过少数几步去噪,并行优化整个序列。好处是非自回归速度和生成时的双向上下文;挑战在于匹配自回归模型的原始质量和可控性,LLaDA、Gemini Diffusion和Mercury正在此方向上大力推进。
第四家族是液态和连续时间模型,它们完全抛弃了并行查找表的思想,转而采用随时间连续演化的动态,旨在构建更小、更具适应性的网络。好处是参数效率和不同的归纳偏差;挑战在于将此故事扩展到前沿规模。
这些替代方案均未推翻注意力机制。但单一文化已经结束,最可能的未来是显式的混合架构:在需要精确回忆的地方使用注意力(付出二次方代价),其他地方使用线性时间模型。
以下是完整系列按顺序列出:
#846 — 超越Transformer:新系列 — 开篇,描绘arXiv上后注意力架构的明显转向,以及我们围绕自注意力度过的十年。规划了映射每个主要Transformer替代方案的蓝图。
#850 — RNN的意外回归 — 论证递归网络是最容易被忽视的替代方案,重新审视为何线性时间递归再次具有吸引力。将现代RNN变体定位为严肃的挑战者而非遗迹。
#854 — 王者归来:揭开xLSTM架构 — 追溯从1990年代LSTM到2017年Transformer转向,再到xLSTM(Hochreiter和Schmidhuber设计的现代复兴)的谱系。解释了重新设计的门控和缩放如何让xLSTM能够与基于注意力的模型竞争。
#858 — 状态空间模型如何从好奇变成严肃的Transformer竞争者 — 描绘了随着百万token上下文和大型KV缓存成为实际约束,O(n²)注意力瓶颈如何凸显,并论证状态空间模型已悄然成熟为占主导范式真正的对手。
#862 — 了解文本扩散模型 — 介绍文本扩散作为最可信的非自回归Transformer替代方案之一。涵盖了扩散式生成如何从严格的从左到右下一token预测中解放出来。
#866 — 你需要了解的三款文本扩散模型 — 实际后续,介绍该领域的领先玩家:LLaDA、Gemini Diffusion和Mercury。比较它们各自如何实现基于扩散的文本生成。
#870 — 液态模型与后Transformer架构的探索 — 深入液态神经网络作为更有前景的非Transformer架构之一,将其连续时间动态与注意力的并行查找表方法进行对比。将其置于更广泛的继任者探索背景下。
#874 — Transformer还是不是? — 总结篇,询问Transformer是最终架构还是第一个真正可扩展的架构,即将被更丰富的东西吸收。倾向于后者并概述了系列覆盖的全部景观。
下一步:关于蒸馏的新系列
如果上一个系列是关于改变架构,下一个系列则是关于压缩它。我们将深入探讨知识蒸馏——将大型、昂贵的教师模型的能力压缩到一个更小、更快的学生的技术集合。这是现代AI中最不华丽但经济上最重要的想法之一:这是前沿能力真正到达生产的方式。我们将涵盖经典方法(logit匹配、原始的Hinton公式)、现代变体(序列级、在线策略和自我蒸馏)、什么实际上转移了什么没有,以及为什么几乎所有你能负担得起的模型在某种意义上都是蒸馏的。我们下期见。