2026-06-08 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

WAV：深度解碼器專用Transformer的多解析度塊殘差路由

本文提出WAV v1，一種輕量級多解析度殘差路由方法。標準殘差流使用固定權重聚合，而近期方法透過內容相關路由改善，但塊級摘要丟失了注意力與MLP不平衡等方向性結構。WAV v1為每個塊新增相位基和分裂基兩個方向細節基，與塊摘要一起透過深度softmax混合器路由，並採用負細節源初始化和分離RMS匹配穩定訓練。在字元級TinyStories和Text8語言建模上，WAV v1在12層時效果不顯著，24層具有競爭力，48層顯著優於所有基線，驗證損失分別從0.4960降至0.4738和從0.9363降至0.9305，引數增加可忽略。結果表明方向性殘差細節對於深層Transformer的殘差路由縮放至關重要。

來源arXiv Machine Learning作者: Kehan Wang

近日，一篇題為《WAV：深度解碼器專用Transformer的多解析度塊殘差路由》的論文在arXiv上釋出。該研究針對深度Transformer中的殘差連線問題，提出了一種輕量級多解析度殘差路由方法WAV v1。

在標準PreNorm殘差流中，子層更新以固定單位權重聚合，這限制了模型的表達能力。雖然近期提出的注意力殘差（Attention Residuals）透過內容相關的深度路由替代了固定聚合，塊注意力殘差（Block Attention Residuals）透過路由塊級殘差摘要提高了效率，但單個塊摘要僅儲存塊內的低頻總殘差位移，丟失瞭如注意力與MLP不平衡、早期與後期塊動態等方向性結構資訊。

WAV v1的核心創新在於，每個塊不再僅由累積殘差和表示，而是增加了兩個方向細節基：相位基（phase basis）用於對比注意力和MLP更新，分裂基（split basis）用於對比早期和後期子層更新。這些基與標準塊摘要一起透過相同的深度softmax混合器進行路由。為了穩定訓練，論文采用了負細節源初始化（negative detail-source initialization）和分離RMS匹配（detached RMS matching）。

實驗在字元級TinyStories和Text8語言建模任務上進行。結果顯示，WAV v1的效能與深度密切相關：在12層時並不穩定，但在24層時變得具有競爭力，而在48層時顯著優於所有基線。具體而言，在48層條件下，WAV v1將驗證損失從塊注意力殘差（Block AttnRes）的0.4960降至0.4738（TinyStories），從0.9363降至0.9305（Text8），且僅增加了可忽略的額外引數。

這些發現表明，方向性殘差細節（而不僅僅是塊級和）對於深層Transformer的殘差路由縮放至關重要。該工作為未來設計更深、更高效的Transformer架構提供了新的思路。