ACE-Ego-0:統一自我中心人類與機器人資料用於VLA預訓練
ACE-Ego-0是一個統一的視覺-語言-動作(VLA)預訓練框架,透過將自我中心人類影片轉換為機器人格式的偽動作軌跡,並結合可靠性感知訓練目標,有效融合人類和機器人資料,提升了VLA模型的預訓練和微調效能。
來源arXiv Robotics作者: Hao Li, Ganlong Zhao, Yufei Liu, Haotian Hou, Guoquan Ye, Tongyan Fang, Chunxiao Liu, Siyuan Huang, Jianbo Liu, Xiaogang Wang, Hongsheng Li
視覺-語言-動作(VLA)模型在機器人領域展現出巨大潛力,但大規模機器人軌跡資料的收整合本高昂且勞動密集。近期研究表明,大規模自我中心人類影片可以作為預訓練的補充真實世界監督訊號。然而,由於動作空間、身體結構、時間動態和監督質量等方面的差異,聯合訓練人類和機器人資料仍面臨挑戰。
為解決這一問題,研究團隊提出了ACE-Ego-0,一個統一的VLA預訓練框架,能夠聯合利用異構資料來源。該框架的核心創新包括三個方面:首先,構建了一個可擴充套件的自我中心影片到動作流水線,將原始人類影片轉換為機器人格式的偽動作軌跡;其次,採用基於相機空間動作、形態條件化和時間對齊動作分塊的統一動作表示,使人類偽動作標籤與機器人演示具有可比性;最後,設計了一個可靠性感知訓練目標,透過人類輔助損失將監督集中在可靠訊號上,從而穩健地利用來自自我中心人類影片的噪聲偽動作監督。
在實驗中,ACE-Ego-0在4.53K小時的機器人和模擬資料以及1.48K小時的偽動作標記自我中心人類資料上進行了例項化。結果表明,在可靠性感知加權下,納入大規模人類監督能夠一致性地提升統一聯合預訓練和監督微調的效能。該框架在RoboCasa GR1 TableTop和RoboTwin 2.0基準上取得了最先進的結果,並展示了向真實世界雙臂操作任務的有效遷移。這些成果表明,透過有效利用大規模人類影片資料,可以顯著提升機器人學習模型的效能和泛化能力,為未來機器人學習提供了新的方向。