一貫しているが間違っている:空間視覚言語モデルにおける証拠への鈍感さ
新しい研究により、最先端の視覚言語モデル(VLM)は空間推論タスクにおいて視点を跨いで一貫した予測をするものの、それが誤っていることが多く、視覚的証拠ではなく事前知識に依存していることが明らかになった。研究者らはこの問題を診断するためのマルチビュー評価プロトコルViewDiagを提案する。
空間推論はロボティクス、自律システム、身体化AIの基盤ですが、最新の視覚言語モデル(VLM)は距離に関するメートル法クエリに対して信頼性が低いままです。東京大学の研究チーム(S Divakar Bhat、Toshihiko Yamasaki)は、モデルが異なる視点から一貫した予測を生成するものの、それらがしばしば誤っていることを発見しました。これは、モデルが視点固有の視覚的証拠に基づいて推論するのではなく、事前知識に依存していることを示唆しています。
研究チームは、この問題を診断するための制御されたマルチビュー評価プロトコル「ViewDiag」を提案しました。ViewDiagはHypersim、ScanNet、KITTI360のデータセットから構築され、80シーンにわたる176の物体ペア軌跡(各軌跡2~10視点)を含みます。プロトコルは3つの軸でモデルを評価します:
- メートル精度:予測距離と真の距離の一致度。
- 分布集中度:異なる視点間での予測のばらつき。
- 潜在特徴プローブ:内部表現の分析により、予測の安定性が決定崩壊(出力層の固定化)によるものか、表現崩壊(内部表現の劣化)によるものかを区別します。
複数の代表的なVLMで実験を行った結果、一貫したパターンが観察されました。モデルは高い予測安定性を示す一方で、大きな誤差を伴っていました。つまり、モデルは視点を変えてもほとんど同じ距離を予測するが、その値は現実と大きく乖離しているのです。この「強い一貫性、低い精度」の状態は、モデルが証拠に基づく推論ではなく、事前知識に駆動された崩壊(prior-driven collapse)に陥っていることを示しています。モデルは視点固有の情報を無視し、トレーニングデータで学習した典型的な距離値を出力していると考えられます。
この発見は、視点間の一貫性を幾何学的理解の代理指標として用いる一般的な慣行に疑問を投げかけます。一貫性はむしろ、モデルが「怠けている」兆候である可能性があります。ViewDiagは、真の空間推論と表面的な一貫性を区別するための診断フレームワークを提供します。
研究のコードとデータはGitHub(github.com/SDivakarBhat/Consistent_Yet_Wrong)で公開されており、論文はarXiv(ID: 2606.02742)に掲載されています。この研究は、特に安全が重要なロボット応用において、真に空間を理解するAIシステムの開発に貢献するものです。