2026-05-18 13:00 UTC+9サイト内リライト2 分で読了更新: 2026-06-30 22:03 UTC+9

GQLA: ハードウェア適応型大規模言語モデル復号のためのグループクエリ潜在注意

研究者らは、DeepSeekのマルチヘッド潜在注意（MLA）を改良したグループクエリ潜在注意（GQLA）を提案。再学習なしで2つのハードウェア適応型復号パスを提供し、H100およびH20 GPU上で効率的な推論を可能にする。また、事前学習済みGQAモデルを変換するTransGQLAも含む。

ソースarXiv Machine Learning著者: Fanxu Meng

記事インテリジェンス

エンジニア上級

要点

GQLAはDeepSeekのMLAを拡張し、デュアル復号パス（MQA吸収パスとGQAパス）を持ち、異なるハードウェアのルーフラインに適応する。
単一のGQLA重みセットをH100（MQAパス）またはH20（GQAパス+マルチトークン予測）で使用可能。
TransGQLAは事前学習済みGQAチェックポイントをGQLAに変換し、LLaMA-3-8BでKVキャッシュを28.125%に圧縮。
GQAパス上で最大8方向の冗長ゼロテンソル並列化をサポート。

重要な理由

このニュースが重要なのは、GQLAはDeepSeekのMLAを拡張し、デュアル復号パス（MQA吸収パスとGQAパス）を持ち、異なるハードウェアのルーフラインに適応するためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

このパネルは AI が生成し、正確性を確認済みです。

大規模言語モデルの推論において、アテンション機構は性能と効率を左右する重要な要素です。DeepSeek-V2/V3で採用されたマルチヘッド潜在注意（MLA）は、キーと値を低ランク潜在空間に圧縮することで、H100 GPUの計算・ストレージルーフラインにほぼ完全に適合します。しかし、MLAの訓練済み重みは、吸収型マルチクエリ注意（MQA）形式の復号パスのみを公開しており、効率的な推論はH100クラスの計算帯域幅比に強く依存し、ヘッド軸に沿ったテンソル並列化ができず、輸出制限のあるH20のような汎用GPUではマルチトークン予測（MTP）の利得が得られません。

この問題を解決するため、研究者らはグループクエリ潜在注意（GQLA）を提案しました。GQLAはMLAの最小限の変更であり、その訓練済み重みは同じパラメータセット上で2つの代数的に等価な復号パスを公開します。1つはMLAと同一のMQA吸収パス、もう1つはグループごとに拡張されたキャッシュを持つGQAパスです。実行時には、ターゲットハードウェアに応じて適切なパスが自動選択され、再学習やカスタムカーネルは不要です。そのため、単一のGQLA重みセットでH100（MQA吸収、s_q=1）とH20（GQA+MTP、s_q=2）の両方でルーフライン性能を達成し、GQAパスでは最大8方向の冗長ゼロテンソル並列化をサポートします。

さらに、ゼロからの事前学習を避けるため、TransMLAを拡張したTransGQLAを用いて、事前学習済みGQAチェックポイントをGQLAモデルに変換します。LLaMA-3-8Bでの実験では、MQA吸収パスにおいてトークンごとのKVキャッシュがGQAベースラインの28.125%に圧縮され、グループパスではGQAレベルのトラフィック構造が維持されました。この手法により、モデルのさまざまなハードウェアへの展開柔軟性と推論効率が大幅に向上し、特に輸出制限のあるGPU環境での展開に有用です。