2026-05-29 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

Embodied3DBench：视觉语言模型低层级具身空间智能基准测试

该研究提出了Embodied3DBench，一个针对视觉语言模型在3D环境中低层级具身空间智能的基准测试，包含6个任务类别和超过21000个问答对。评估了13个模型，发现当前模型在高层次空间推理上表现较好，但在交互导向感知方面较弱。为此，他们合成了130万问答对的训练数据集，微调后显著提升了低层级空间智能。

来源arXiv Computer Vision作者: Jiyao Zhang, Mingxu Zhang, Yitong Peng, Haoxuan Liu, Chenshuo Wang, Yuxing Long, Haoyang Huang, Dongjiang Li, Nan Duan, Hui Shen, Hao Dong

视觉语言模型（VLM）在理解和推理三维环境中的复杂具身交互方面表现如何？为了系统评估这一能力，来自多所机构的研究人员联合推出了Embodied3DBench——一个以机器人为中心的基准测试，专门针对具身三维环境中的低层级空间智能。该基准测试涵盖了6个任务类别，分为两个核心组：空间结构理解（包括定位、空间关系预测和多视角对应）和交互导向感知（包括可供性预测、抓取点预测和轨迹预测）。整个测试包含12个子类别，共计超过21000个高质量问答对。

研究团队评估了13个当前最先进的视觉语言模型，结果显示，尽管这些模型在高层次空间推理（如理解物体间的相对位置关系）上表现出相对较强的能力，但在交互导向感知方面仍然脆弱，这凸显了当前模型缺乏稳健的3D感知交互先验知识。为了主动弥补这一能力差距，研究者进一步合成了一个大规模训练数据集，包含130万个问答对。值得注意的是，在该数据集上对模型进行微调后，其低层级空间智能得到了显著提升。

Embodied3DBench填补了关键空白，既提供了一个系统化的评估框架，也提供了一种可扩展的数据解决方案，为开发交互感知的多模态系统设定了明确目标。该基准测试的发布将推动视觉语言模型在机器人和具身智能领域的应用，尤其是在需要精细空间理解和交互的场景中，例如机器人抓取、导航和操作任务。