AI News HubLIVE
サイト内リライト2 分で読了

階層的グローバルアテンション(HGA)

階層的グローバルアテンション(HGA)は、事前学習済み長コンテキストTransformerにおける密な因果的注意のドロップイン代替であり、再トレーニングやキャリブレーションなしで、1枚のRTX 5090上で64Kトークンのコンテキストを実現し、品質損失は最小限です。

ソースarXiv Machine Learning著者: Woernle Frank, Fedosov Vladimir, Grinenko Artemiy

階層的グローバルアテンション(HGA)は、事前学習済みの長コンテキストTransformer向けの新しい疎な注意メカニズムであり、密な因果的注意のドロップイン代替として機能します。この手法の核となる利点は、元のチェックポイントパラメータを完全に保持することです。事前学習済みのW_Q、W_K、W_V、W_O射影は変更されず、キャリブレーションパラメータの導入や再トレーニングは一切不要です。これにより、追加の微調整ステップなしに、任意の事前学習済みモデルの注意層を直接置き換えることができ、導入のハードルが大幅に低減されます。

研究チームはHGAをQwen3-30B-A3B-Instruct-2507-FP8モデルに適用し、1枚のRTX 5090(32GB)上で64Kトークンのコンテキスト長を達成しました。このハードウェアでは、従来のトークンレベルのK/Vストレージは実現不可能ですが、HGAの階層的ルーティングメカニズムによりそれが可能になりました。これは、リソース制約のあるデバイスでの長コンテキストモデル運用の大きな可能性を示しています。

HGAは従来の疎な注意法とは異なり、階層的な2段階ルーティングを採用しています。まず、コンパクトなRoPE認識要約を使用して関連チャンクを取得し、次に最も関連するグループのみをルーティングして選択を絞り込み、最後に取得したトークンセットに対して正確なトークンレベルの注意を実行します。この階層的取得により、フェッチされるトークン数が大幅に削減されると同時に、取得セットに対する正確な注意が維持されるため、RAMおよびNVMeベースのストレージが実用的になります。具体的には、完全な履歴トークンK/VはホストRAMまたはNVMeストレージに保持され、注意計算中はルーティングされた小さなワーキングセットのみがGPUメモリに転送されます。その結果、GPUメモリ消費は主にモデル重みとルーティングワーキングセットに依存し、総コンテキスト長には依存しません。

4Kから64Kトークンまでのすべてのテスト済みコンテキスト長において、HGAのルーティング注意は密な注意と約0.01~0.02 nats以内の差に収まり、使用された疎密度はわずか約3%でした。これらの結果は、階層的ルーティングによって導入される近似誤差が小さく、残りの品質ギャップはルーティングアルゴリズム自体ではなく、長コンテキストの位置エンコーディングによって支配されている可能性が高いことを示しています。本研究は、限られたハードウェア上で長コンテキストモデルを実行するための実用的なソリューションを提供し、モデル展開と推論効率に重要な影響を与えるものです。