AI News HubLIVE
站內改寫1 分鐘閱讀

EmbodimentSemantic:面向具身操作軌跡的空間場景圖數據集與視覺-語言模型基準

針對視覺-語言-動作系統在空間關係理解上的不足,研究者提出了EmbodimentSemantic數據集與基準。該數據集通過物體-關係-物體三元組顯式表示空間結構,包含真實世界和仿真兩個部分,並驗證了場景圖對下游控制任務的提升作用。實驗表明當前模型雖能預測合理關係,但難以精確處理深度和視角依賴的空間結構。

來源arXiv Robotics作者: Hassan Jaber, Refinath S N, Luca Cagliero, Christopher E. Mower, Haitham Bou-Ammar

視覺-語言-動作(VLA)系統在機器人操作任務中取得了顯著進展,但空間關係理解仍是其關鍵瓶頸。現有模型能夠識別物體並遵循語言指令,卻缺乏對物體空間排列的顯式表示,包括支撐、包含、順序、遮擋以及深度敏感關係。為填補這一空白,來自多所機構的研究人員聯合提出了EmbodimentSemantic——一個面向具身操作的空間場景圖數據集與基準。

該數據集的核心創新在於將場景表示為有向物體-關係-物體三元組,每個三元組使用固定關係集指定一對有序物體之間的空間關係。這種表示直接支持物體綁定、關係預測和空間一致性的評估。數據收集方面,研究團隊利用低成本的SO101機械臂在實際操作環境中採集了大量真實世界觀察數據,並基於這些觀測生成了場景圖,為研究實際機器人場景中的空間關係提供了基礎。

為了提供可控驗證,研究人員還基於LIBERO模擬器構建了包含超過6萬幀操作數據以及超過12萬個相機特定場景圖的基準測試。該模擬環境包含第三人稱和腕部視角的配對數據,通過MuJoCo幾何、世界座標、相機投影和可見性約束自動推導出真實關係標註。這一設計確保了評估的準確性和可重複性。

研究進一步測試了場景圖對下游控制任務的影響。通過在現有VLA策略提示中注入場景圖信息,實驗發現場景圖能夠提升模型在空間關係理解方面的表現。然而,對多種開源和商業視覺-語言模型的系統評估顯示,當前模型雖能預測合理的空間關係,但在精確的深度感知和視角依賴的空間結構理解上仍存在明顯不足。

EmbodimentSemantic為診斷視覺-語言模型在空間感知方面的侷限性和測試其在具身操作中的實用性提供了一個統一框架。該數據集和基準的開源發佈將推動VLA系統在空間關係理解方面的進一步發展,為實現更魯棒的機器人操作能力奠定基礎。