AI News HubLIVE
站内改写

NVIDIA AI、Deltaルールにおける消去と書き込みを分離する線形注意機構「Gated DeltaNet-2」を公開

NVIDIAのGated DeltaNet-2は、線形注意機構においてメモリ更新時の消去と書き込みをチャネル単位のゲートに分離したモデルです。1.3Bパラメータ、100B FineWeb-Eduトークンでトレーニングされ、言語モデリング、常識推論、長文脈検索でMamba-2、Gated DeltaNet、KDA、Mamba-3を上回り、特にRULERベンチマークで大きな向上を示しました。

記事インテリジェンス

エンジニア上級

要点

  • Gated DeltaNet-2はスカラーゲートをチャネル単位の消去ゲート(キー軸)と書き込みゲート(値軸)に分解し、古いコンテンツの消去と新しいコンテンツの書き込みを独立して制御します。
  • 1.3Bパラメータ、100B FineWeb-Eduトークンでトレーニングされ、ベースラインと比較してベンチマーク全体で最高の平均性能を達成。
  • RULER長文脈検索タスクで顕著な改善:S-NIAH-3(2K)は63.2(KDA)から89.8、MK-NIAH-1(4K)は28.0から37.8に向上。

重要な理由

このニュースが重要なのは、Gated DeltaNet-2はスカラーゲートをチャネル単位の消去ゲート(キー軸)と書き込みゲート(値軸)に分解し、古いコンテンツの消去と新しいコンテンツの書き込みを独立して制御しますためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

線形注意機構は、無制限のKVキャッシュを固定サイズのリカレント状態に圧縮することで、系列混合を線形時間に、デコーディングを定数メモリに削減します。しかし、この圧縮されたメモリを編集する際に既存の関連付けを混乱させないことが課題です。NVIDIAが公開したGated DeltaNet-2は、このボトルネックに取り組む新しい線形注意層であり、2つのチャネル単位のゲートによってアクティブメモリ編集における消去と書き込みを分離します。

デルタルールモデルでは、先行研究のGated DeltaNetやKDAは単一のスカラーゲートを使用して古いコンテンツの消去と新しいコンテンツの書き込みを同時に制御していました。しかし、これらの2つの決定は状態の異なる軸に作用するため、それらを結合することはモデリング上の制約です。Gated DeltaNet-2はGated Delta Rule-2を導入し、キー軸上のチャネル単位消去ゲートb_tと値軸上のチャネル単位書き込みゲートw_tをそれぞれ使用します。更新ルールは:S_t = (I − k_t (b_t ⊙ k_t)⊤) D_t S_{t−1} + k_t (w_t ⊙ v_t)⊤。ここでD_tはKDAから継承したチャネル単位の減衰です。両方のゲートが同一のスカラーに縮退するとKDAに、減衰もスカラーに縮退するとGated DeltaNetに回復します。

トレーニングはチャンク単位のWY形式で並列化され、ゲートを考慮した逆伝播アルゴリズムが実装されています。Hopper GPUでは、融合WY逆伝播カーネルは2〜4ワープを使用します。モデルは1.3Bパラメータで100B FineWeb-Eduトークンでトレーニングされ、すべてのベースラインモデルとパラメータ数とリカレント状態サイズが一致しています。実験結果では、Gated DeltaNet-2は言語モデリングと常識推論で平均最高性能(リカレント設定53.11、ハイブリッド設定53.97)を示し、RULER長文脈検索で最大の向上を達成しました。例えば、S-NIAH-3(2K)はKDAの63.2から89.8、MK-NIAH-1(4K)は28.0から37.8に向上しています。実世界検索タスクでもリーダーシップを発揮しました。

Gated DeltaNet-2の公式実装はGitHubで公開されており、PyTorchコード、Tritonカーネル、トレーニングスクリプトが含まれています。ライセンスはNVIDIAソースコードライセンス(非商用)で、論文はリポジトリから入手可能です。研究チームはNVIDIAのAli Hatamizadeh、Yejin Choi、Jan Kautzです。