EgoAERO: 從單段第一人稱視頻中學習靈巧操作,無需物體資產
EgoAERO是一個新穎的框架,能夠從單段第一人稱RGB-D人類演示中學習靈巧機器人操作,而無需預先掃描的物體資產。它重建接觸一致的手-物體軌跡,並通過兩階段殘差學習將其轉化為機器人策略。該框架還引入了在線質量評估機制,並構建了包含430萬RGB-D幀的大規模數據集EgoDex-R。實驗表明,其性能接近基於CAD的重建方法。
EgoAERO是一項由Yichen Niu等15位研究人員提出的創新框架,於2026年6月6日提交至arXiv,旨在解決機器人學習中的關鍵挑戰:如何從單段第一人稱RGB-D視頻中高效學習靈巧操作,而無需預先掃描的物體三維模型。傳統的機器人學習方法通常需要依賴昂貴的物體掃描資產,這限制了其在實際環境中的靈活性和可擴展性。EgoAERO通過一套完整的流程,從單段演示中重建手-物體交互軌跡,並轉化為機器人可執行的策略。
該框架的核心技術包括無資產物體跟蹤與重建、自我運動補償和自適應接觸優化。首先,從視頻中實時恢復物體的姿態和幾何形狀,無需任何先驗模型。其次,通過自我運動補償消除相機運動帶來的噪聲,確保軌跡的時序一致性。最後,自適應接觸優化算法保證生成的手-物體軌跡滿足物理接觸約束,避免穿透或分離。這些軌跡通過兩階段殘差學習轉換為機器人策略:第一階段學習粗略的軌跡分佈,第二階段進行精細調整,從而適應不同機器人運動學。
為了支持大規模學習,團隊構建了EgoDex-R數據集,包含430萬幀RGB-D數據,涵蓋多種靈巧操作任務,如抓取、旋轉、插入等。此外,引入了在線質量評估機制,自動篩選高質量的演示樣本,提高學習效率。
實驗在仿真和真實機器人環境中進行,EgoAERO均展現出接近甚至媲美基於CAD模型的方法的性能。在HOI4D基準測試中,下游任務的成功率與CAD重建方法幾乎一致,證明了其在實際應用中的潛力。這一工作為無資產、單演示的靈巧操作學習開闢了新道路,有望推動機器人在家庭、醫療、工業等領域的廣泛應用。論文編號arXiv:2606.08057。