2026-06-30 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-30 16:12 UTC+8

深度交错斐波那契间隔的稀疏注意力：静态调度胜过学习膨胀，并在密集注意力失败处外推

研究比较了稀疏自注意力中四种设置深度方向alpha的方法，发现静态每层交错调度在困惑度上优于固定和学习方法，且所有稀疏变体可外推至训练长度四倍，而密集基线崩溃。

来源arXiv Computational Linguistics作者: Chad A. Capps

在一项新的研究中，研究者深入探索了稀疏自注意力机制，提出了一种基于斐波那契间隔的深度交错方法。该研究在21个语言模型上进行了实验，所有模型采用相同的训练配置（6000万参数，512隐藏维度，16层，4.26亿token），比较了四种在深度上设置alpha（控制间隔压缩或扩展的标量）的方法：固定值、每层学习、静态线性交错，以及互质重分配。此外，还加入了幂2基数作为对照。

实验结果显示，静态每层交错调度在困惑度上显著优于固定和学习alpha，且这种优势与基数无关——将同一交错应用于幂2基数使其超越固定斐波那契，达到与学习斐波那契注意力相当的水平。相比之下，每层学习alpha几乎无效，不仅未能超越静态调度，还带来了约五倍的推理延迟增加。

最关键的发现是，所有稀疏注意力变体在外推至训练长度四倍时性能几乎没有下降，而匹配的密集基线则彻底崩溃（困惑度上升201%）。研究者认为，这是因为固定偏移注意力只查询训练中见过的相对位置。然而，研究也坦承了两个负面结果：在训练长度上，最佳稀疏模型的困惑度比密集基线高约26%，且交错增益在不同上下文位置均匀分布，而非集中在长距离。

这项研究为稀疏注意力的设计提供了重要见解，表明静态、非学习的深度调度可能比复杂的学习方法更加有效，同时稀疏注意力在长度外推方面具有显著优势。