微分可能な効率的演算子探索
研究者らは、マルチモーダル基盤モデルにおけるトークン削減の最適な方法を自動的に見つける微分可能なフレームワークを提案し、視覚トークンを大幅に削減しても精度と効率のバランスを達成した。
マルチモーダル基盤モデルは視覚と言語タスクで大きな進歩を遂げているが、高い計算コストが依然として課題である。このコストを削減する一般的な手法として、トークン削減演算子が用いられる。例えば、プルーニング(重要でないトークンの削除)、マージ(複数のトークンを統合)、プーリング(トークンの集約)、適応的再重み付け(トークン重みの調整)などがある。これらの演算子は通常、研究者が特定のモデルやタスク向けに手動で設計する。しかし、北京航空航天大学などの研究チームは、これらの一見異なる演算子を共通の演算子空間の異なる状態として解釈できるという新たな視点を提示した。この知見に基づき、彼らは「微分可能な効率的演算子探索」(DEOS)フレームワークを開発した。
DEOSの中核は、レイヤーの活性化、保持予算、および演算子の振る舞いをパラメータ化した微分可能な探索空間である。探索ポリシーは、片側の予算とコスト制約の下でタスク性能を最適化する。この定式化により、代表的な手動設計ベースラインを特殊ケースとして再現できるだけでなく、手動設計を超えたハイブリッド演算子を発見できる。例えば、特定のレイヤーではプルーニングとプーリングの組み合わせが単一の演算子よりも効果的である。
実験は、視覚質問応答や画像キャプション生成などのマルチモーダルベンチマークで行われた。結果、視覚トークンを10%にまで削減した場合でも、DEOSが探索した演算子は元のモデルと同等の精度を維持し、計算コストを大幅に削減できることが示された。この研究は、効率的なマルチモーダル推論を手動設計から自動探索へとパラダイムシフトさせる可能性を示している。研究者らは、DEOSフレームワークが汎用的であり、将来より広範なモデルアーキテクチャやタスクに拡張可能だと述べている。関連論文は2026年6月3日にarXiv(ID: 2606.05232)に投稿され、コードとプレプリントが公開されている。