2026-06-17站内改写1 分鐘閱讀更新: 2026-06-17

ACE-Ego-0：統一自我中心人類與機器人數據用於VLA預訓練

ACE-Ego-0是一個統一的視覺-語言-動作（VLA）預訓練框架，通過將自我中心人類視頻轉換為機器人格式的偽動作軌跡，並結合可靠性感知訓練目標，有效融合人類和機器人數據，提升了VLA模型的預訓練和微調性能。

來源arXiv Robotics作者: Hao Li, Ganlong Zhao, Yufei Liu, Haotian Hou, Guoquan Ye, Tongyan Fang, Chunxiao Liu, Siyuan Huang, Jianbo Liu, Xiaogang Wang, Hongsheng Li

視覺-語言-動作（VLA）模型在機器人領域展現出巨大潛力，但大規模機器人軌跡數據的收集成本高昂且勞動密集。近期研究表明，大規模自我中心人類視頻可以作為預訓練的補充真實世界監督信號。然而，由於動作空間、身體結構、時間動態和監督質量等方面的差異，聯合訓練人類和機器人數據仍面臨挑戰。

為解決這一問題，研究團隊提出了ACE-Ego-0，一個統一的VLA預訓練框架，能夠聯合利用異構數據源。該框架的核心創新包括三個方面：首先，構建了一個可擴展的自我中心視頻到動作流水線，將原始人類視頻轉換為機器人格式的偽動作軌跡；其次，採用基於相機空間動作、形態條件化和時間對齊動作分塊的統一動作表示，使人類偽動作標籤與機器人演示具有可比性；最後，設計了一個可靠性感知訓練目標，通過人類輔助損失將監督集中在可靠信號上，從而穩健地利用來自自我中心人類視頻的噪聲偽動作監督。

在實驗中，ACE-Ego-0在4.53K小時的機器人和模擬數據以及1.48K小時的偽動作標記自我中心人類數據上進行了實例化。結果表明，在可靠性感知加權下，納入大規模人類監督能夠一致性地提升統一聯合預訓練和監督微調的性能。該框架在RoboCasa GR1 TableTop和RoboTwin 2.0基準上取得了最先進的結果，並展示了向真實世界雙臂操作任務的有效遷移。這些成果表明，通過有效利用大規模人類視頻數據，可以顯著提升機器人學習模型的性能和泛化能力，為未來機器人學習提供了新的方向。