2026-05-29 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

Embodied3DBench：視覺語言模型低層級具身空間智能基準測試

該研究提出了Embodied3DBench，一個針對視覺語言模型在3D環境中低層級具身空間智能的基準測試，包含6個任務類別和超過21000個問答對。評估了13個模型，發現當前模型在高層次空間推理上表現較好，但在交互導向感知方面較弱。為此，他們合成了130萬問答對的訓練數據集，微調後顯著提升了低層級空間智能。

來源arXiv Computer Vision作者: Jiyao Zhang, Mingxu Zhang, Yitong Peng, Haoxuan Liu, Chenshuo Wang, Yuxing Long, Haoyang Huang, Dongjiang Li, Nan Duan, Hui Shen, Hao Dong

視覺語言模型（VLM）在理解和推理三維環境中的複雜具身交互方面表現如何？為了系統評估這一能力，來自多所機構的研究人員聯合推出了Embodied3DBench——一個以機器人為中心的基準測試，專門針對具身三維環境中的低層級空間智能。該基準測試涵蓋了6個任務類別，分為兩個核心組：空間結構理解（包括定位、空間關係預測和多視角對應）和交互導向感知（包括可供性預測、抓取點預測和軌跡預測）。整個測試包含12個子類別，共計超過21000個高質量問答對。

研究團隊評估了13個當前最先進的視覺語言模型，結果顯示，儘管這些模型在高層次空間推理（如理解物體間的相對位置關係）上表現出相對較強的能力，但在交互導向感知方面仍然脆弱，這凸顯了當前模型缺乏穩健的3D感知交互先驗知識。為了主動彌補這一能力差距，研究者進一步合成了一個大規模訓練數據集，包含130萬個問答對。值得注意的是，在該數據集上對模型進行微調後，其低層級空間智能得到了顯著提升。

Embodied3DBench填補了關鍵空白，既提供了一個系統化的評估框架，也提供了一種可擴展的數據解決方案，為開發交互感知的多模態系統設定了明確目標。該基準測試的發佈將推動視覺語言模型在機器人和具身智能領域的應用，尤其是在需要精細空間理解和交互的場景中，例如機器人抓取、導航和操作任務。