ミラージュプローブ:視覚モデルがどのように視覚的理解を偽装するか
視覚言語モデル(VLM)は画像がなくても画像に関する質問に自信を持って答え、ベンチマークスコアを水増しする「ミラージュ行動」を示す。本研究はこれを2つのメカニズムに分類する:テキストバイアス(言語事前確率に依存)とスプリアス画像(潜在空間で誤った視覚内容を構築)。対照的プロービングフレームワークと新たな指標PHIを用いて、それぞれ異なる緩和策が必要であることを示す。
視覚言語モデル(VLM)は画像に関する質問に答える能力で注目を集めているが、新たな研究により、これらのモデルが実際には画像を必要とせずに回答できる「ミラージュ行動」を示すことが明らかになった。この行動はベンチマークスコアを不当に引き上げ、モデルの真の視覚理解能力を隠蔽する。研究チームは論文「Mirage Probes: How Vision Models Fake Visual Understanding」において、この問題を体系的に分析し、二つの異なるメカニズムを区別する手法を提案した。
従来の研究ではミラージュを単一の故障モードと見なしていたが、本研究ではこれが二つの異なるメカニズムから成ると主張する。研究チームは「ミラージュプローブ」と呼ばれる対照的プロービングフレームワークを設計し、同一画像に対する言い換え質問のペアにミラージュ/非ミラージュラベルを対応付けることで、二つのオープンソースVLMの内部活性(残差ストリーム、MLP、アテンション後、アテンションヘッドなど)からミラージュ行動が線形に復号可能であることを示した。さらに、単純なナイーブベイズテキストベースラインではこの信号を捕捉できず、表層的な語彙の交絡因子の可能性を排除した。
研究者らは新たに「事前確率活用指数(PHI)」を導入し、モデルがテキストのみからどの程度回答できるかを測定した。クロスベンチマークの分離パターンと組み合わせることで、二つの異なるミラージュ体制が明らかになった。一つは「テキストバイアス」であり、モデルが視覚表現を用いずに言語事前確率から回答する。もう一つは「スプリアス画像」であり、モデルが潜在空間で誤った視覚内容を構築し、あたかもそれに基づいて回答する。
この区別は実践的な緩和策に直接結びつく。テキスト分布のクリーニング(不適切な言語的手がかりの除去)は第一の体制には有効だが、第二の体制には効果がない。なぜならスプリアス画像ミラージュはモデルのテキスト表現ではなく視覚表現に存在するからである。真に信頼できる視覚的根拠を得るためには、表現レベルでの介入が必要であり、例えば視覚エンコーディングの改善やマルチモーダル検証の強制などが考えられる。この研究はVLMのミラージュ行動の深層構造を明らかにするとともに、より頑健な視覚システムの開発に貢献する。