Embodied3DBench:視覺語言模型低層級具身空間智慧基準測試
該研究提出了Embodied3DBench,一個針對視覺語言模型在3D環境中低層級具身空間智慧的基準測試,包含6個任務類別和超過21000個問答對。評估了13個模型,發現當前模型在高層次空間推理上表現較好,但在互動導向感知方面較弱。為此,他們合成了130萬問答對的訓練資料集,微調後顯著提升了低層級空間智慧。
文章情報
要點
- Embodied3DBench專注於評估視覺語言模型的低層級具身空間智慧
- 包含空間結構理解和互動導向感知兩個核心組,共6個任務類別
- 評估13個模型顯示高層次推理強但互動感知弱
- 透過130萬問答對資料集微調可有效提升效能
為什麼重要
這條新聞值得關注,因為Embodied3DBench專注於評估視覺語言模型的低層級具身空間智慧。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
視覺語言模型(VLM)在理解和推理三維環境中的複雜具身互動方面表現如何?為了系統評估這一能力,來自多所機構的研究人員聯合推出了Embodied3DBench——一個以機器人為中心的基準測試,專門針對具身三維環境中的低層級空間智慧。該基準測試涵蓋了6個任務類別,分為兩個核心組:空間結構理解(包括定位、空間關係預測和多視角對應)和互動導向感知(包括可供性預測、抓取點預測和軌跡預測)。整個測試包含12個子類別,共計超過21000個高質量問答對。
研究團隊評估了13個當前最先進的視覺語言模型,結果顯示,儘管這些模型在高層次空間推理(如理解物體間的相對位置關係)上表現出相對較強的能力,但在互動導向感知方面仍然脆弱,這凸顯了當前模型缺乏穩健的3D感知互動先驗知識。為了主動彌補這一能力差距,研究者進一步合成了一個大規模訓練資料集,包含130萬個問答對。值得注意的是,在該資料集上對模型進行微調後,其低層級空間智慧得到了顯著提升。
Embodied3DBench填補了關鍵空白,既提供了一個系統化的評估框架,也提供了一種可擴充套件的資料解決方案,為開發互動感知的多模態系統設定了明確目標。該基準測試的釋出將推動視覺語言模型在機器人和具身智慧領域的應用,尤其是在需要精細空間理解和互動的場景中,例如機器人抓取、導航和操作任務。