AI News HubLIVE
站內改寫1 分鐘閱讀

深度交錯斐波那契間隔的稀疏注意力:靜態調度勝過學習膨脹,並在密集註意力失敗處外推

研究比較了稀疏自注意力中四種設置深度方向alpha的方法,發現靜態每層交錯調度在困惑度上優於固定和學習方法,且所有稀疏變體可外推至訓練長度四倍,而密集基線崩潰。

來源arXiv Computational Linguistics作者: Chad A. Capps

在一項新的研究中,研究者深入探索了稀疏自注意力機制,提出了一種基於斐波那契間隔的深度交錯方法。該研究在21個語言模型上進行了實驗,所有模型採用相同的訓練配置(6000萬參數,512隱藏維度,16層,4.26億token),比較了四種在深度上設置alpha(控制間隔壓縮或擴展的標量)的方法:固定值、每層學習、靜態線性交錯,以及互質重分配。此外,還加入了冪2基數作為對照。

實驗結果顯示,靜態每層交錯調度在困惑度上顯著優於固定和學習alpha,且這種優勢與基數無關——將同一交錯應用於冪2基數使其超越固定斐波那契,達到與學習斐波那契注意力相當的水平。相比之下,每層學習alpha幾乎無效,不僅未能超越靜態調度,還帶來了約五倍的推理延遲增加。

最關鍵的發現是,所有稀疏注意力變體在外推至訓練長度四倍時性能幾乎沒有下降,而匹配的密集基線則徹底崩潰(困惑度上升201%)。研究者認為,這是因為固定偏移注意力只查詢訓練中見過的相對位置。然而,研究也坦承了兩個負面結果:在訓練長度上,最佳稀疏模型的困惑度比密集基線高約26%,且交錯增益在不同上下文位置均勻分佈,而非集中在長距離。

這項研究為稀疏注意力的設計提供了重要見解,表明靜態、非學習的深度調度可能比複雜的學習方法更加有效,同時稀疏注意力在長度外推方面具有顯著優勢。