从“物体在哪里”到“物体有何用”:多模态大语言模型的空间-功能智能基准测试
真正的空间智能超越了低层几何感知,要求理解物体不仅“在哪里”还要“有何用”。苹果机器学习研究团队提出的SFI-Bench基准测试,通过超过1700个来自第一人称室内视频的问题,系统评估多模态大语言模型在结构化空间推理和功能推理两个维度的能力。实验表明,当前模型难以整合空间记忆与功能及外部知识,暴露出关键瓶颈。
苹果机器学习研究团队在CVPR 2026上发布了SFI-Bench(空间-功能智能基准测试),旨在评估多模态大语言模型(MLLMs)的高级认知能力。传统的基准测试如VSI-Bench主要关注基础的几何感知,即物体“在哪里”的问题,而SFI-Bench则更进一步,要求模型理解物体“有何用”,即物体的功能及其在特定上下文中的用途。这一转变标志着从低层感知到高层认知的进化。
SFI-Bench包含超过1700个问题,数据来源于多种第一人称视角的室内视频扫描,涵盖了厨房、客厅、办公室等不同场景。问题设计围绕两个核心维度:结构化空间推理和功能推理。结构化空间推理要求模型理解复杂的空间布局,并在不同视角间形成连贯的空间表征;功能推理则要求模型推断物体的可供性(affordances)以及其在不同情境下的效用。具体任务包括条件计数(例如,“数一数所有可用于切割的物体”)、多跳关系推理(例如,“从冰箱中取出牛奶后,应该放在哪个柜子里?”)、功能配对(将工具与其功能匹配)以及基于知识的故障排查(例如,“如果灯不亮,可能是什么原因?”)。这些任务直接挑战模型整合感知、记忆和推理的能力。
实验结果显示,当前最先进的多模态大语言模型,如GPT-4V和Gemini,在SFI-Bench上的表现远低于人类水平。特别是在需要同时运用空间记忆与功能及外部知识的任务上,模型表现挣扎,例如在功能配对和知识驱动故障排查中,准确率不足50%。这突显了一个关键瓶颈:模型难以将视觉空间信息与抽象的功能概念以及常识知识进行有效整合。
SFI-Bench为衡量和推动认知能力更强、真正接地气的多模态智能体提供了必要的工具。该研究由蒙特利尔大学Mila研究所、纽约大学和苹果公司的研究人员共同完成,论文第一作者Le Zhang等人详细介绍了基准的设计、数据收集过程和实验结果。该基准的发布有望引导社区关注更高层次的认知能力,并推动多模态人工智能从“感知”向“认知”的跨越。