2026-06-30 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 16:12 UTC+8

深度交錯斐波那契間隔的稀疏注意力：靜態調度勝過學習膨脹，並在密集註意力失敗處外推

研究比較了稀疏自注意力中四種設置深度方向alpha的方法，發現靜態每層交錯調度在困惑度上優於固定和學習方法，且所有稀疏變體可外推至訓練長度四倍，而密集基線崩潰。

來源arXiv Computational Linguistics作者: Chad A. Capps

在一項新的研究中，研究者深入探索了稀疏自注意力機制，提出了一種基於斐波那契間隔的深度交錯方法。該研究在21個語言模型上進行了實驗，所有模型採用相同的訓練配置（6000萬參數，512隱藏維度，16層，4.26億token），比較了四種在深度上設置alpha（控制間隔壓縮或擴展的標量）的方法：固定值、每層學習、靜態線性交錯，以及互質重分配。此外，還加入了冪2基數作為對照。

實驗結果顯示，靜態每層交錯調度在困惑度上顯著優於固定和學習alpha，且這種優勢與基數無關——將同一交錯應用於冪2基數使其超越固定斐波那契，達到與學習斐波那契注意力相當的水平。相比之下，每層學習alpha幾乎無效，不僅未能超越靜態調度，還帶來了約五倍的推理延遲增加。

最關鍵的發現是，所有稀疏注意力變體在外推至訓練長度四倍時性能幾乎沒有下降，而匹配的密集基線則徹底崩潰（困惑度上升201%）。研究者認為，這是因為固定偏移注意力只查詢訓練中見過的相對位置。然而，研究也坦承了兩個負面結果：在訓練長度上，最佳稀疏模型的困惑度比密集基線高約26%，且交錯增益在不同上下文位置均勻分佈，而非集中在長距離。

這項研究為稀疏注意力的設計提供了重要見解，表明靜態、非學習的深度調度可能比複雜的學習方法更加有效，同時稀疏注意力在長度外推方面具有顯著優勢。