WAV:深度解碼器專用Transformer的多解析度塊殘差路由
本文提出WAV v1,一種輕量級多解析度殘差路由方法。標準殘差流使用固定權重聚合,而近期方法透過內容相關路由改善,但塊級摘要丟失了注意力與MLP不平衡等方向性結構。WAV v1為每個塊新增相位基和分裂基兩個方向細節基,與塊摘要一起透過深度softmax混合器路由,並採用負細節源初始化和分離RMS匹配穩定訓練。在字元級TinyStories和Text8語言建模上,WAV v1在12層時效果不顯著,24層具有競爭力,48層顯著優於所有基線,驗證損失分別從0.4960降至0.4738和從0.9363降至0.9305,引數增加可忽略。結果表明方向性殘差細節對於深層Transformer的殘差路由縮放至關重要。
近日,一篇題為《WAV:深度解碼器專用Transformer的多解析度塊殘差路由》的論文在arXiv上釋出。該研究針對深度Transformer中的殘差連線問題,提出了一種輕量級多解析度殘差路由方法WAV v1。
在標準PreNorm殘差流中,子層更新以固定單位權重聚合,這限制了模型的表達能力。雖然近期提出的注意力殘差(Attention Residuals)透過內容相關的深度路由替代了固定聚合,塊注意力殘差(Block Attention Residuals)透過路由塊級殘差摘要提高了效率,但單個塊摘要僅儲存塊內的低頻總殘差位移,丟失瞭如注意力與MLP不平衡、早期與後期塊動態等方向性結構資訊。
WAV v1的核心創新在於,每個塊不再僅由累積殘差和表示,而是增加了兩個方向細節基:相位基(phase basis)用於對比注意力和MLP更新,分裂基(split basis)用於對比早期和後期子層更新。這些基與標準塊摘要一起透過相同的深度softmax混合器進行路由。為了穩定訓練,論文采用了負細節源初始化(negative detail-source initialization)和分離RMS匹配(detached RMS matching)。
實驗在字元級TinyStories和Text8語言建模任務上進行。結果顯示,WAV v1的效能與深度密切相關:在12層時並不穩定,但在24層時變得具有競爭力,而在48層時顯著優於所有基線。具體而言,在48層條件下,WAV v1將驗證損失從塊注意力殘差(Block AttnRes)的0.4960降至0.4738(TinyStories),從0.9363降至0.9305(Text8),且僅增加了可忽略的額外引數。
這些發現表明,方向性殘差細節(而不僅僅是塊級和)對於深層Transformer的殘差路由縮放至關重要。該工作為未來設計更深、更高效的Transformer架構提供了新的思路。