AI News HubLIVE
サイト内リライト2 分で読了

微分可能探索による視覚基盤モデルにおける層別プロンプト融合の発見

本論文では、視覚プロンプトチューニングにおいて画像トークンとプロンプトトークンの最適な融合方式を自動的に発見するための微分可能アーキテクチャ探索手法を提案する。学習可能なプロンプトとその融合方式を共同最適化し、アフィン変換とクロスアテンションという2つの新しい融合機構を導入する。34のデータセットでの実験により、ベースラインを一貫して上回る性能を示し、ハイブリッド融合がVision Transformerの層意味論をより効果的に活用できることを明らかにした。

ソースarXiv Computer Vision著者: Xi Xiao, Xingjian Li, Yunbei Zhang, Cheng Han, Tianming Liu, Tianyang Wang, Runmin Jiang, Jihun Hamm, Xiao Wang, Min Xu

視覚プロンプトチューニング(Visual Prompt Tuning)は、大規模なVision Transformer(ViT)を下流タスクに適応させるためのパラメータ効率的な微調整手法として登場した。この手法では、学習可能なプロンプトが入力空間と特徴空間に適用され、画像トークンと共にTransformer層のアテンション機構を通過する。最も一般的な融合方式は、連結(concatenation)または加算(addition)である。しかし、単一の融合方式が常に最適かどうか、またハイブリッド融合方式が有益かどうかという根本的な問題は未解決のままである。

この問題に対処するため、著者らはタスクを二段階最適化問題として定式化し、微分可能アーキテクチャ探索(DARTS)を用いて解決した。この枠組みでは、学習可能なプロンプトとその融合方式が共同最適化される。探索空間を豊かにするため、従来の連結と加算に加えて、アフィン変換とクロスアテンションという2つの新しい融合方式を提案した。アフィン変換は学習可能な重みとバイアスでプロンプト表現を調整し、クロスアテンションはプロンプトと画像トークン間のより複雑な相互作用を可能にする。

VTAB-1k、FGVC、HTAを含む34のデータセットでの広範な実験により、本手法は視覚プロンプトチューニングにおいて一貫した性能向上を示した。凍結されたViTバックボーンを用いた場合、VPT-Deepや最近の変種と比較して、精度、レイテンシ、パラメータ数の間で良好なトレードオフを実現した。結果は、プロンプトと画像トークンの融合方法が視覚プロンプトチューニングの性能に重要な役割を果たすこと、そしてハイブリッド融合がViTの層意味論をより効果的に活用することを示しており、視覚プロンプトチューニング研究に新たな視点を提供する。本論文はECCV 2026に採択されている。

さらに、著者らはアブレーション研究と可視化分析を行い、提案した融合方式の有効性を検証した。例えば、Transformer層の深さに応じて最適な融合方式が異なることを発見し、層固有のプロンプト融合の重要性を示した。この研究は、視覚プロンプトチューニングの実用的な方法を提供するだけでなく、将来の研究においてより複雑なプロンプトと画像の相互作用メカニズムを探求する道を開くものである。