ハイブリッドモデルはどのトークンをより正確に予測するか?
Ai2チームは、7BパラメータのTransformerモデルOlmo 3とハイブリッドモデルOlmo Hybridを比較。ハイブリッドモデルは内容語(名詞、動詞、形容詞)や文脈推論が必要なトークンで優れるが、繰り返しトークンや閉じ括弧では優位性が消失する。トークンレベルの損失フィルタリングにより、アーキテクチャ間の微妙な差異が明らかになった。
Ai2チームは最新の研究で、自社の最強7BパラメータTransformerモデルOlmo 3とハイブリッドモデルOlmo Hybridを詳細に比較し、ハイブリッドモデルがトークンレベルでどのような予測特性を持つかを明らかにしました。ハイブリッドアーキテクチャは標準的なTransformerに代わるものとして注目されており、ベンチマークで同等以上の性能を示していますが、具体的な優位性のパターンは不明でした。
研究チームは、データ、トークナイザー、学習手法を可能な限り統一した2つのモデルを用い、各トークンの予測損失の差(損失ギャップ)を分析しました。その結果、ハイブリッドモデルはほとんどのトークンで損失が低いものの、その差はトークンの種類によって異なることがわかりました。
特に、名詞、動詞、形容詞などの内容語ではハイブリッドモデルの損失ギャップが約0.04と大きく、代名詞の参照解決など文脈の追跡が必要なトークンでも優位性を示しました。一方、「the」「of」「is」などの機能語ではギャップが約0.02に縮小します。さらに、次のトークンが単に入力からそのまま繰り返されるケース(コピー)では、ハイブリッドモデルの優位性はほぼ消失し、Transformerが同等以上の性能を発揮しました。また、閉じ括弧(例えばコードの「}」)の予測では注意機構が十分に機能するため、両モデルに差は見られませんでした。
これらの知見を基に、研究チームは特定のトークンタイプに限定した損失(フィルタリング損失)を用いることで、事前学習の初期段階からアーキテクチャの違いを評価できることを示しました。3つの1Bパラメータモデル(Transformer、ハイブリッド、純粋な再帰モデル)を用いた実験では、繰り返しでない内容語においてハイブリッドと再帰モデルがTransformerを上回り、ハイブリッドが最良でした。一方、繰り返しトークンでは注意機構を持たない純再帰モデルが最も悪い結果となりました。
この研究は、単一の全体損失だけではアーキテクチャの比較に不十分であること、特にハイブリッドモデルは再帰層の状態追跡能力により開放クラスのトークンで優位性を持つことを示しています。チームはこれらの発見を今後のハイブリッドモデル開発に活かし、各コンポーネントのトークンレベルでの強みを理解することで最適なアーキテクチャを追求する方針です。詳細はarXivのテクニカルレポートで公開されています。