「物体がどこにあるか」から「何のためにあるか」へ:マルチモーダル大規模言語モデルのための空間・機能インテリジェンスベンチマーク
真の空間インテリジェンスは低レベルの幾何学的知覚を超え、物体の位置だけでなくその役割を理解することを要求します。Apple機械学習研究チームが提案するSFI-Benchは、一人称視点の室内ビデオから得られた1700以上の質問を用いて、マルチモーダル大規模言語モデルの構造化空間推論と機能的推論の能力を体系的に評価します。実験では、現在のモデルが空間記憶と機能的・外部知識の統合に苦戦していることが明らかになりました。
Apple機械学習研究チームは、CVPR 2026において、マルチモーダル大規模言語モデル(MLLM)の高次認知能力を評価する新しいベンチマーク「SFI-Bench(空間・機能インテリジェンスベンチマーク)」を発表しました。従来のVSI-Benchなどのベンチマークが基礎的な幾何学的知覚、つまり物体が「どこにあるか」を評価するのに対し、SFI-Benchは物体が「何のためにあるか」、つまりその機能と文脈に応じた有用性の理解を要求します。
SFI-Benchは、多様な一人称視点の室内ビデオスキャンから抽出された1700以上の質問で構成されています。質問は2つの次元にわたって設計されています:構造化空間推論(複雑なレイアウトを理解し、一貫した空間表現を形成する)と機能的推論(物体のアフォーダンスと文脈依存の効用を推論する)。具体的なタスクには、条件付きカウント(「切断に使える物体をすべて数えよ」)、マルチホップ関係推論(「冷蔵庫から牛乳を取り出した後、どのキャビネットに置くべきか」)、機能ペアリング(道具とその機能を一致させる)、知識に基づくトラブルシューティング(「照明が点かない場合、原因は何か」)が含まれ、これらはモデルの知覚、記憶、推論の統合能力を直接問います。
実験の結果、GPT-4VやGeminiなどの最先端MLLMは、SFI-Benchにおいて人間の性能に大きく及ばず、特に空間記憶と機能的・外部知識を同時に必要とするタスクで顕著な困難を示しました。例えば、機能ペアリングと知識駆動型トラブルシューティングでは精度が50%未満にとどまり、重要なボトルネックが明らかになりました。
SFI-Benchは、より認知能力が高く、真に接地されたマルチモーダルエージェントの進歩を測定し促進するための不可欠なツールを提供します。本研究は、モントリオール大学Mila研究所、ニューヨーク大学、Appleの研究者による共同成果であり、論文の第一著者Le Zhang氏らがベンチマークの設計、データ収集プロセス、実験結果を詳述しています。このベンチマークの公開は、コミュニティがより高次の認知能力に焦点を当て、マルチモーダルAIを「知覚」から「認知」へと進化させるきっかけとなることが期待されます。