AI News HubLIVE
站内改写

GQLA: ハードウェア適応型大規模言語モデル復号のためのグループクエリ潜在注意

研究者らは、DeepSeekのマルチヘッド潜在注意(MLA)を改良したグループクエリ潜在注意(GQLA)を提案。再学習なしで2つのハードウェア適応型復号パスを提供し、H100およびH20 GPU上で効率的な推論を可能にする。また、事前学習済みGQAモデルを変換するTransGQLAも含む。

記事インテリジェンス

エンジニア上級

要点

  • GQLAはDeepSeekのMLAを拡張し、デュアル復号パス(MQA吸収パスとGQAパス)を持ち、異なるハードウェアのルーフラインに適応する。
  • 単一のGQLA重みセットをH100(MQAパス)またはH20(GQAパス+マルチトークン予測)で使用可能。
  • TransGQLAは事前学習済みGQAチェックポイントをGQLAに変換し、LLaMA-3-8BでKVキャッシュを28.125%に圧縮。
  • GQAパス上で最大8方向の冗長ゼロテンソル並列化をサポート。

重要な理由

このニュースが重要なのは、GQLAはDeepSeekのMLAを拡張し、デュアル復号パス(MQA吸収パスとGQAパス)を持ち、異なるハードウェアのルーフラインに適応するためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

大規模言語モデルの推論において、アテンション機構は性能と効率を左右する重要な要素です。DeepSeek-V2/V3で採用されたマルチヘッド潜在注意(MLA)は、キーと値を低ランク潜在空間に圧縮することで、H100 GPUの計算・ストレージルーフラインにほぼ完全に適合します。しかし、MLAの訓練済み重みは、吸収型マルチクエリ注意(MQA)形式の復号パスのみを公開しており、効率的な推論はH100クラスの計算帯域幅比に強く依存し、ヘッド軸に沿ったテンソル並列化ができず、輸出制限のあるH20のような汎用GPUではマルチトークン予測(MTP)の利得が得られません。

この問題を解決するため、研究者らはグループクエリ潜在注意(GQLA)を提案しました。GQLAはMLAの最小限の変更であり、その訓練済み重みは同じパラメータセット上で2つの代数的に等価な復号パスを公開します。1つはMLAと同一のMQA吸収パス、もう1つはグループごとに拡張されたキャッシュを持つGQAパスです。実行時には、ターゲットハードウェアに応じて適切なパスが自動選択され、再学習やカスタムカーネルは不要です。そのため、単一のGQLA重みセットでH100(MQA吸収、s_q=1)とH20(GQA+MTP、s_q=2)の両方でルーフライン性能を達成し、GQAパスでは最大8方向の冗長ゼロテンソル並列化をサポートします。

さらに、ゼロからの事前学習を避けるため、TransMLAを拡張したTransGQLAを用いて、事前学習済みGQAチェックポイントをGQLAモデルに変換します。LLaMA-3-8Bでの実験では、MQA吸収パスにおいてトークンごとのKVキャッシュがGQAベースラインの28.125%に圧縮され、グループパスではGQAレベルのトラフィック構造が維持されました。この手法により、モデルのさまざまなハードウェアへの展開柔軟性と推論効率が大幅に向上し、特に輸出制限のあるGPU環境での展開に有用です。