從“物體在哪裏”到“物體有何用”:多模態大語言模型的空間-功能智能基準測試
真正的空間智能超越了低層幾何感知,要求理解物體不僅“在哪裏”還要“有何用”。蘋果機器學習研究團隊提出的SFI-Bench基準測試,通過超過1700個來自第一人稱室內視頻的問題,系統評估多模態大語言模型在結構化空間推理和功能推理兩個維度的能力。實驗表明,當前模型難以整合空間記憶與功能及外部知識,暴露出關鍵瓶頸。
蘋果機器學習研究團隊在CVPR 2026上發佈了SFI-Bench(空間-功能智能基準測試),旨在評估多模態大語言模型(MLLMs)的高級認知能力。傳統的基準測試如VSI-Bench主要關注基礎的幾何感知,即物體“在哪裏”的問題,而SFI-Bench則更進一步,要求模型理解物體“有何用”,即物體的功能及其在特定上下文中的用途。這一轉變標誌着從低層感知到高層認知的進化。
SFI-Bench包含超過1700個問題,數據來源於多種第一人稱視角的室內視頻掃描,涵蓋了廚房、客廳、辦公室等不同場景。問題設計圍繞兩個核心維度:結構化空間推理和功能推理。結構化空間推理要求模型理解複雜的空間佈局,並在不同視角間形成連貫的空間表徵;功能推理則要求模型推斷物體的可供性(affordances)以及其在不同情境下的效用。具體任務包括條件計數(例如,“數一數所有可用於切割的物體”)、多跳關係推理(例如,“從冰箱中取出牛奶後,應該放在哪個櫃子裏?”)、功能配對(將工具與其功能匹配)以及基於知識的故障排查(例如,“如果燈不亮,可能是什麼原因?”)。這些任務直接挑戰模型整合感知、記憶和推理的能力。
實驗結果顯示,當前最先進的多模態大語言模型,如GPT-4V和Gemini,在SFI-Bench上的表現遠低於人類水平。特別是在需要同時運用空間記憶與功能及外部知識的任務上,模型表現掙扎,例如在功能配對和知識驅動故障排查中,準確率不足50%。這突顯了一個關鍵瓶頸:模型難以將視覺空間信息與抽象的功能概念以及常識知識進行有效整合。
SFI-Bench為衡量和推動認知能力更強、真正接地氣的多模態智能體提供了必要的工具。該研究由蒙特利爾大學Mila研究所、紐約大學和蘋果公司的研究人員共同完成,論文第一作者Le Zhang等人詳細介紹了基準的設計、數據收集過程和實驗結果。該基準的發佈有望引導社區關注更高層次的認知能力,並推動多模態人工智能從“感知”向“認知”的跨越。