AI News HubLIVE
站内改写2 分で読了

マルチモーダル言語モデルにはいくつの視覚トークンが必要か?F^3Aによる視覚トークンプルーニングのスケーリング

視覚言語モデルは、言語バックボーンにますます長い視覚トークンシーケンスを入力することで知覚を改善しますが、その結果生じる推論コストは基本的なスケーリング問題を提起します:マルチモーダルモデルが成長するにつれて、実際に必要な視覚トークンの数はいくつか、固定予算の下でどのように割り当てるべきか?既存のトレーニング不要のプルーニング手法は、デコーダ注意、視覚的類似性、条件付き多様性などのワンショットプロキシでこれに答えることが多い。著者らは、視覚トークンプルーニングはタスク条件付き証拠探索として捉えるべきだと主張し、特に積極的な圧縮とモデルスケール全体で考慮する。彼らはF^3Aを提案する。これは言語モデルが画像トークンを消費する前に動作するトレーニング不要のルーターである。F^3Aは軽量な質問条件付きキューを構築し、凍結されたスパースセンシングヘッドを介して視覚グリッドトークンとマッチングし、粗い証拠の位置特定、局所的な洗練、カバレッジ保存競争、未カバー領域の回復を通じて固定の視覚トークン予算を割り当てる。モデルトレーニングや追加のLLMフォワードパスは不要で、元のマルチモーダルプロンプトとデコードパイプラインを保持する。

ソースarXiv Computer Vision著者: YiJie Huang, Yiqun Zhang, Zhuoyue Jia, Xiaocui Yang, Junzhao Huang, Zihan Wang, Shi Feng, Daling Wang, Yifei Zhang, Yongkang Liu

マルチモーダル言語モデル(視覚言語モデルなど)は、言語バックボーンにますます長い視覚トークンシーケンスを入力することで知覚を向上させています。しかし、この増加は推論コストの上昇をもたらし、基本的なスケーリング問題を提起します:マルチモーダルモデルが大規模化するにつれて、実際に必要な視覚トークンの数はいくつか?固定された視覚トークン予算の下で、それらをどのように割り当てるべきか?

既存のトレーニング不要のプルーニング手法は、デコーダ注意、視覚的類似性、条件付き多様性などのワンショットプロキシを使用してこの問題に答えることが一般的です。しかし、本論文の著者らは、視覚トークンプルーニングはタスク条件付き証拠探索として捉えるべきだと主張し、特に積極的な圧縮やモデルスケール全体で考慮する必要があると述べています。彼らが提案するF^3A(Fast Feature-Filtering Assignment)は、言語モデルが画像トークンを消費する前に動作するトレーニング不要のルーターです。

F^3Aの動作原理は以下の通りです:まず軽量な質問条件付きキューを構築し、凍結されたスパースセンシングヘッドを介してそれらを視覚グリッドトークンとマッチングします。次に、粗い証拠の位置特定、局所的な洗練、カバレッジ保存競争、未カバー領域の回復といったステップを通じて、固定の視覚トークン予算を最も重要な領域に割り当てます。この手法はモデルトレーニングを必要とせず、追加のLLMフォワードパスも不要で、元のマルチモーダルプロンプトとデコードパイプラインを保持します。

この研究は、特に高解像度画像や長いビデオシーケンスを扱うシナリオにおいて、効率的なマルチモーダル推論の新たな視点を提供し、性能を維持しながら計算オーバーヘッドを大幅に削減する可能性があります。F^3Aは実運用での導入を考慮して設計されており、トレーニング不要であるため、既存のモデルに追加のトレーニングコストなしで直接適用できます。さらに、元のプロンプトとデコードの流れを変更しないため、既存のマルチモーダルシステムにシームレスに統合できます。著者らは複数のベンチマークでの実験を通じてF^3Aの有効性を検証し、同等の性能を維持しながら視覚トークンの数を大幅に削減し、推論コストを低減できることを示しました。この成果は、マルチモーダルモデルの実世界アプリケーションへの大規模展開にとって重要な意味を持ちます。