AI News HubLIVE
站内改写1 分で読了

WAV: 深層デコーダのみのTransformerのためのマルチレゾリューションブロック残差ルーティング

本論文では、深層デコーダのみのTransformer向けに、軽量なマルチレゾリューション残差ルーティング手法WAV v1を提案。標準的な残差ストリームは固定重みで集約するが、WAV v1は各ブロックに位相ベースと分割ベースの2つの方向性詳細ベースを追加し、注意とMLPの不均衡や初期・後期サブレイヤーダイナミクスを捉える。これらをブロック要約と共にルーティングし、負の初期化と分離RMSマッチングで訓練を安定化。文字レベルのTinyStoriesとText8言語モデリングで、12層では一貫しないが24層で競争力を持ち、48層では全てのベースラインを凌駕。48層での検証損失はBlock AttnResと比較してTinyStoriesで0.4960→0.4738、Text8で0.9363→0.9305に低減し、パラメータ増加は無視できる。方向性残差詳細が深層Transformerのスケーリングに重要であることを示す。

ソースarXiv Machine Learning著者: Kehan Wang

深層Transformerの訓練において残差接続は中心的な役割を果たす。標準的なPreNorm残差ストリームはサブレイヤー更新を固定の単位重みで集約するが、最近のAttention Residualsは内容依存の深さ方向ルーティングに置き換え、Block Attention Residualsはブロックレベルの残差要約をルーティングすることで効率化を図った。しかし、単一のブロック要約はブロック内の低周波総残差変位のみを保存し、注意対MLPの不均衡や初期対後期のブロックダイナミクスなどの方向性構造を失ってしまう。

そこで、本研究ではWAV v1を提案する。これはデコーダのみのTransformerのための軽量なマルチレゾリューション残差ルーティング手法である。各ブロックを累積残差和のみで表現する代わりに、WAV v1は2つの方向性詳細ベースを追加する。位相ベースは注意とMLPの更新を対比し、分割ベースは初期と後期のサブレイヤー更新を対比する。これらのベースは標準のブロック要約とともに同じ深さ方向ソフトマックスミキサーでルーティングされる。さらに、負の詳細ソース初期化と分離RMSマッチングにより訓練を安定化する。

文字レベルのTinyStoriesとText8言語モデリングにおいて、WAV v1は明確な深さ依存の利点を示した。12層では一貫した効果が見られないが、24層で競争力を発揮し、48層では全ベースラインを上回った。48層では、WAV v1はBlock AttnResと比較して検証損失をTinyStoriesで0.4960から0.4738、Text8で0.9363から0.9305に低減し、追加パラメータは無視できる量であった。

これらの結果は、ブロックレベルの和だけでなく方向性残差詳細が、深層Transformerにおける残差ルーティングのスケーリングに重要であることを示唆している。