2026-06-29 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-29 16:17 UTC+8

SceneBot：基於接觸提示的通用人形全身追蹤與場景交互

SceneBot是一種統一的人形運動追蹤框架，能夠處理自由空間運動、地形穿越和全身操控。通過將參考運動與每個關節的接觸標籤相結合，它顯式定義了預期的環境交互。為解決交互數據不足的問題，研究團隊提出了一種事後場景重建方法，從重定向的人體運動中推斷場景交互圖。經過7.5小時的重建接觸豐富數據訓練，SceneBot成功泛化到未見過的運動和環境，實現瞭如搬箱上樓等複雜、長時任務。這是首個無縫統一自由空間和接觸豐富行為的通用框架。

來源arXiv Robotics作者: Sirui Chen, Shibo Zhao, Zhen Wu, Jiaman Li, Guanya Shi, C. Karen Liu

當前人形機器人強化學習策略在自由空間運動中表現出色，但在涉及物體交互或不平地形行走等接觸豐富的任務中面臨巨大挑戰。純運動學追蹤無法解決與物體和複雜地形交互時的物理歧義問題。為了攻克這一難題，來自多所機構的研究人員推出了SceneBot——一個統一的運動追蹤框架，能夠同時處理自由空間運動、地形穿越和全身操控等廣泛任務。

SceneBot的核心創新在於將單個策略同時基於參考運動軌跡和每個關節的接觸標籤進行條件化。這種方法顯式定義了機器人與其環境的預期交互方式，使機器人能夠區分何時應該與物體接觸、何時應該保持自由運動。然而，帶註釋的交互數據極為稀缺，這限制了傳統監督學習方法的應用。為此，研究團隊開發了一種事後場景重建方法：通過將人體演示運動重新定向到人形機器人上，從中推斷場景交互圖，從而自動生成大量的接觸豐富訓練數據。

利用這種方法，團隊收集了7.5小時的重建數據，並基於此訓練SceneBot。實驗結果表明，SceneBot能夠成功泛化到未見過的運動和環境，不僅執行自由空間運動，還能完成如搬箱上樓等複雜的、需要長時間規劃的任務。研究團隊認為，接觸條件化是控制人形機器人的一種強大接口，而SceneBot是首個將自由空間和接觸豐富行為無縫統一的通用框架。該研究成果已於2026年6月25日提交至arXiv，所有代碼和數據將開源發佈，更多演示可在項目網站查看。