トランスフォーマーに3つの投影は必要か?QKVバリアントの体系的研究
トランスフォーマーのクエリ・キー・バリュー(QKV)注意機構における投影共有を体系的に研究した論文。キーとバリューの投影を共有(Q-K=V)すると、パープレキシティがわずか3.1%低下するだけでKVキャッシュを50%削減でき、グループ化クエリ注意(GQA)やマルチクエリ注意(MQA)と組み合わせるとそれぞれ87.5%と96.9%のキャッシュ削減を達成し、エッジデバイスでの実用的な推論を可能にする。合成タスク、視覚、言語モデリングの実験で検証。コードは公開。
Transformerアーキテクチャは、様々なAIタスクの標準的なソリューションとなっており、クエリ、キー、バリュー(QKV)注意機構が中心的な役割を果たしている。しかし、これら3つの投影の個別の貢献や、いくつかを省略した場合の影響については、まだ十分に理解されていない。ICML 2026で採択された本論文では、3つの投影共有制約を体系的に評価している:(a) Q-K=V(キーとバリューの共有)、(b) Q=K-V(クエリとキーの共有)、(c) Q=K=V(単一投影)。後者の2つのバリアントは対称的な注意マップを生成するため、研究者は2次元位置エンコーディングを用いた非対称注意も探索した。
実験は合成タスク、視覚タスク(MNIST、CIFAR、TinyImageNet、異常検出)、および言語モデリング(300Mおよび1.2Bパラメータモデルを10Bトークンで学習)にわたる。その結果、提案されたバリアントTransformerは標準のQKV Transformerと同等か、場合によってはそれ以上の性能を示した。言語モデリングにおいて、Q-K=V投影共有はわずか3.1%のパープレキシティ低下で50%のKVキャッシュ削減を達成した。さらに重要なことに、投影共有はヘッド共有(GQA/MQA)と相補的である:Q-K=VとGQA-4を組み合わせると87.5%のキャッシュ削減、Q-K=VとMQAを組み合わせると96.9%のキャッシュ削減を実現し、実際のデバイス上推論を可能にする。
研究者らは、Q-K=Vが品質を維持する理由として、キーとバリューが類似した表現空間を占めることができ、注意操作が低ランク領域で動作するためであると示している。一方、Q=K-Vは注意の方向性を壊す。この研究は、投影共有が注意における未開拓の重み結合の一例であり、特にエッジデプロイメントにおいて直接的で定量可能な推論メモリの利点をもたらすことを体系的に特徴づけている。コードはGitHubで公開されている。
本論文はAli Kayyamらによって執筆され、全26ページ、12図、16表から構成される。実験は様々なモデルサイズで一貫した結果を示し、投影共有とヘッド共有の相乗効果が顕著であることを確認した。この発見は、リソース制約のあるデバイスへの大規模言語モデルの展開に新たな可能性を開き、モバイル端末やIoTシナリオでのTransformerモデルの応用を促進することが期待される。