Prism Transformer: 階層的注意処理のための漸進的ヘッドスケジュール
Prism Transformerは、層ごとに注意ヘッド数を増やす漸進的ヘッドスケジュールを導入し、局所から大域への表現階層を実現する。追加パラメータや計算量なしで、複数のゼロショットベンチマークで一貫した改善を示した。
標準的なTransformerでは、マルチヘッドアテンションは各層で隠れ次元を全ヘッドに均等に分割し、すべての層で同一の部分空間次元(dh = dmodel/h)を強制します。この均一な割り当ては、初期層のヘッドが複雑で高次元の文脈パターンを忠実に捉える能力を制限する構造的ボトルネックです。この問題を解決するために、Shubham Aggarwal は2026年6月に提出した論文で、Prism Transformerを提案しました。これは、静的な均一ヘッド構成を漸進的ヘッドスケジュールに置き換える新しいアーキテクチャパラダイムです。
Prism Transformerは、層を経るごとにヘッド数を単調に増加させます。初期層では少数の幅広いヘッドを用いて局所的な複合パターンを捉え、深い層では多数の狭いヘッドでそれらのパターンを専門的な言語特徴に分解します。この構造変更はパラメータ数や計算量に影響を与えず、標準Transformerと同じ重み行列とFLOP予算を維持します。
実験は124M、354M、757Mの3つのモデルスケールで行われました。Prism Transformerは一貫して均一ベースラインを上回り、検証損失の低減と、PIQA、HellaSwag、ARC-Easy、WinoGrandeなどのゼロショットベンチマークでの性能向上を達成しました。この成果は、非一様な部分空間割り当てが標準Transformerの潜在能力を引き出し、モデル容量のより効果的な利用を可能にすることを示しています。今後のTransformerアーキテクチャ設計に新たな方向性を与える可能性があります。