AI News HubLIVE
站内改写1 分钟阅读

深度交错斐波那契间隔的稀疏注意力:静态调度胜过学习膨胀,并在密集注意力失败处外推

研究比较了稀疏自注意力中四种设置深度方向alpha的方法,发现静态每层交错调度在困惑度上优于固定和学习方法,且所有稀疏变体可外推至训练长度四倍,而密集基线崩溃。

来源arXiv Computational Linguistics作者: Chad A. Capps

在一项新的研究中,研究者深入探索了稀疏自注意力机制,提出了一种基于斐波那契间隔的深度交错方法。该研究在21个语言模型上进行了实验,所有模型采用相同的训练配置(6000万参数,512隐藏维度,16层,4.26亿token),比较了四种在深度上设置alpha(控制间隔压缩或扩展的标量)的方法:固定值、每层学习、静态线性交错,以及互质重分配。此外,还加入了幂2基数作为对照。

实验结果显示,静态每层交错调度在困惑度上显著优于固定和学习alpha,且这种优势与基数无关——将同一交错应用于幂2基数使其超越固定斐波那契,达到与学习斐波那契注意力相当的水平。相比之下,每层学习alpha几乎无效,不仅未能超越静态调度,还带来了约五倍的推理延迟增加。

最关键的发现是,所有稀疏注意力变体在外推至训练长度四倍时性能几乎没有下降,而匹配的密集基线则彻底崩溃(困惑度上升201%)。研究者认为,这是因为固定偏移注意力只查询训练中见过的相对位置。然而,研究也坦承了两个负面结果:在训练长度上,最佳稀疏模型的困惑度比密集基线高约26%,且交错增益在不同上下文位置均匀分布,而非集中在长距离。

这项研究为稀疏注意力的设计提供了重要见解,表明静态、非学习的深度调度可能比复杂的学习方法更加有效,同时稀疏注意力在长度外推方面具有显著优势。