AI News HubLIVE
站内改写1 分钟阅读

EmbodimentSemantic:面向具身操作轨迹的空间场景图数据集与视觉-语言模型基准

针对视觉-语言-动作系统在空间关系理解上的不足,研究者提出了EmbodimentSemantic数据集与基准。该数据集通过物体-关系-物体三元组显式表示空间结构,包含真实世界和仿真两个部分,并验证了场景图对下游控制任务的提升作用。实验表明当前模型虽能预测合理关系,但难以精确处理深度和视角依赖的空间结构。

来源arXiv Robotics作者: Hassan Jaber, Refinath S N, Luca Cagliero, Christopher E. Mower, Haitham Bou-Ammar

视觉-语言-动作(VLA)系统在机器人操作任务中取得了显著进展,但空间关系理解仍是其关键瓶颈。现有模型能够识别物体并遵循语言指令,却缺乏对物体空间排列的显式表示,包括支撑、包含、顺序、遮挡以及深度敏感关系。为填补这一空白,来自多所机构的研究人员联合提出了EmbodimentSemantic——一个面向具身操作的空间场景图数据集与基准。

该数据集的核心创新在于将场景表示为有向物体-关系-物体三元组,每个三元组使用固定关系集指定一对有序物体之间的空间关系。这种表示直接支持物体绑定、关系预测和空间一致性的评估。数据收集方面,研究团队利用低成本的SO101机械臂在实际操作环境中采集了大量真实世界观察数据,并基于这些观测生成了场景图,为研究实际机器人场景中的空间关系提供了基础。

为了提供可控验证,研究人员还基于LIBERO模拟器构建了包含超过6万帧操作数据以及超过12万个相机特定场景图的基准测试。该模拟环境包含第三人称和腕部视角的配对数据,通过MuJoCo几何、世界坐标、相机投影和可见性约束自动推导出真实关系标注。这一设计确保了评估的准确性和可重复性。

研究进一步测试了场景图对下游控制任务的影响。通过在现有VLA策略提示中注入场景图信息,实验发现场景图能够提升模型在空间关系理解方面的表现。然而,对多种开源和商业视觉-语言模型的系统评估显示,当前模型虽能预测合理的空间关系,但在精确的深度感知和视角依赖的空间结构理解上仍存在明显不足。

EmbodimentSemantic为诊断视觉-语言模型在空间感知方面的局限性和测试其在具身操作中的实用性提供了一个统一框架。该数据集和基准的开源发布将推动VLA系统在空间关系理解方面的进一步发展,为实现更鲁棒的机器人操作能力奠定基础。