AI News HubLIVE
站内改写2 分钟阅读

序列知识#874:Transformer还是不是?

Transformer架构目前是AI领域的参考架构,因其出色的扩展性而成为工业标准,但其注意力机制的计算成本高昂。文章探讨了Transformer是否会是最终架构,还是只是第一个真正可扩展的架构。

来源TheSequence作者: Jesus Rodriguez

Transformer架构目前在人工智能领域占据主导地位,它并非因为最接近大脑结构、设计最优雅或最高效而成为首选,而是因为它拥有最出色的扩展能力。通过增加数据量、参数规模、计算资源、上下文长度,以及采用更好的训练和后期训练方法,模型性能会以令人惊讶的平滑方式持续提升。这种特性在深度学习领域极为罕见:许多想法虽然巧妙,但能够实现工业化的寥寥无几。

Transformer的核心能力源于其注意力机制。每个令牌(token)都能关注其他所有令牌,并判断哪些信息更为重要。这一机制具有极高的通用性,适用于语言、代码、图像、音频、视频、蛋白质序列、机器人令牌以及工具调用痕迹等多种数据类型。架构设计足够简单以便于扩展,具有足够的并行性以支持高效训练,同时具备足够的表达能力来吸收海量数据集。

然而,这种强大能力也伴随着明显的代价:注意力计算成本高昂。完整的自注意力机制在序列长度增加时扩展性显著下降。在自回归生成过程中,模型会累积一个键值缓存(key-value cache),随着上下文增长而不断膨胀。Transformer通过维护一个大型、显式、基于令牌索引的记忆来实现记忆功能。尽管这种设计非常强大,但并非是从第一性原理出发设计每一个智能系统的最佳方式。

因此,关键问题并非“Transformer是否优秀?”——它们确实非常出色。真正的问题是:它们是否是最终的架构形态?或者,它们只是第一个真正可扩展的架构,很快将被更丰富的架构所吸收和超越?我倾向于第二种观点。

替代架构的格局

在探索替代方案的过程中,研究人员提出了多种思路。例如,状态空间模型(SSM)如Mamba,试图通过更高效的状态更新机制来替代注意力机制。线性注意力方法则通过近似计算降低复杂度。此外,还有一些混合架构,将卷积或循环网络与注意力机制结合,以平衡性能与效率。这些工作表明,Transformer虽然目前占据主导地位,但远非终点。未来可能出现融合不同思想的新架构,在保持扩展性的同时降低计算成本。

从更广阔的视角看,Transformer的成功并非偶然,但它也暴露了当前深度学习范式的局限性。对更高效记忆机制、更优数据利用方式以及更接近人类认知的系统的追求,将继续推动架构创新。无论最终答案如何,Transformer已经为AI的发展奠定了坚实的基础,而探索之旅才刚刚开始。