ContactWorld: 接觸豐富操作中視覺-觸覺世界模型的關鍵因素
ContactWorld基準測試覆蓋12項接觸豐富的操作任務,發現空間結構化且時間連續的表示(如點雲)能顯著提升規劃成功率至32.1%。觸覺感測的有效性取決於跨模態表示相容性,結合點雲與觸覺力場表示可達最佳效能36.1%。觸覺在長週期規劃中愈發重要。
來源arXiv Robotics作者: Zhiyuan Zhang, Pokuang Zhou, Kaidi Zhang, Adeesh Desai, Temitope Amosa, Davood Soleymanzadeh, Jiuzhou Lei, Minghui Zheng, Yu She
在機器人操作領域,接觸豐富的任務如插入、拆卸、擰螺絲和探索性互動對世界模型提出了嚴峻挑戰。這些模型必須能夠從視覺和觸覺等多模態感官資料中推理複雜的接觸動力學。然而,哪些表示屬性對穩定的長期規劃至關重要,此前尚不明確。為了解決這一問題,研究人員提出了ContactWorld基準,這是一個系統的實證研究框架,涵蓋12項接觸豐富的操作任務。透過大量實驗,他們發現具有空間結構化和時間連續性的表示能夠實現最強的規劃效能。特別地,使用點雲觀測可將平均規劃成功率從手腕視角的20.7%和前方視角的22.0%提升至32.1%。進一步研究表明,觸覺感測的有效性並非簡單地增加模態即可達成,而是關鍵取決於跨模態表示的相容性。將點雲觀測與觸覺力場表示相結合,後者保留了更豐富的空間結構和互動動力學,可使效能進一步提升至36.1%,在所有評估任務中取得最佳整體規劃效能。此外,觸覺感測在長期規劃目標下變得日益重要。這是因為隨著時間的推移,預測誤差和接觸不確定性會累積,而觸覺資訊有助於緩解這些問題。這些發現共同強調了表示結構、多模態相容性和長期魯棒性在接觸豐富機器人操作的視覺-觸覺世界模型中的核心作用。這項研究為未來機器人作業系統的設計提供了重要指導,特別是在需要精細接觸互動的場景中,如工業裝配、醫療手術和家庭服務等。ContactWorld基準的公開也將促進該領域的標準化評估和進一步研究。