2026-06-09站内改写1 分鐘閱讀更新: 2026-06-09

EgoAERO: 從單段第一人稱視頻中學習靈巧操作，無需物體資產

EgoAERO是一個新穎的框架，能夠從單段第一人稱RGB-D人類演示中學習靈巧機器人操作，而無需預先掃描的物體資產。它重建接觸一致的手-物體軌跡，並通過兩階段殘差學習將其轉化為機器人策略。該框架還引入了在線質量評估機制，並構建了包含430萬RGB-D幀的大規模數據集EgoDex-R。實驗表明，其性能接近基於CAD的重建方法。

來源arXiv Robotics作者: Yichen Niu, Haoran Lv, Xinrui Zhang, Xueyao Wan, Shiyu Gao, Ying Ai, Hui Xu, Yongqi Hu, Hengyi Zhang, Yang Xie, Zhaxizhuoma, Yue Zhao, Zhenshan Bing, Yan Ding, Jianxing Liu

EgoAERO是一項由Yichen Niu等15位研究人員提出的創新框架，於2026年6月6日提交至arXiv，旨在解決機器人學習中的關鍵挑戰：如何從單段第一人稱RGB-D視頻中高效學習靈巧操作，而無需預先掃描的物體三維模型。傳統的機器人學習方法通常需要依賴昂貴的物體掃描資產，這限制了其在實際環境中的靈活性和可擴展性。EgoAERO通過一套完整的流程，從單段演示中重建手-物體交互軌跡，並轉化為機器人可執行的策略。

該框架的核心技術包括無資產物體跟蹤與重建、自我運動補償和自適應接觸優化。首先，從視頻中實時恢復物體的姿態和幾何形狀，無需任何先驗模型。其次，通過自我運動補償消除相機運動帶來的噪聲，確保軌跡的時序一致性。最後，自適應接觸優化算法保證生成的手-物體軌跡滿足物理接觸約束，避免穿透或分離。這些軌跡通過兩階段殘差學習轉換為機器人策略：第一階段學習粗略的軌跡分佈，第二階段進行精細調整，從而適應不同機器人運動學。

為了支持大規模學習，團隊構建了EgoDex-R數據集，包含430萬幀RGB-D數據，涵蓋多種靈巧操作任務，如抓取、旋轉、插入等。此外，引入了在線質量評估機制，自動篩選高質量的演示樣本，提高學習效率。

實驗在仿真和真實機器人環境中進行，EgoAERO均展現出接近甚至媲美基於CAD模型的方法的性能。在HOI4D基準測試中，下游任務的成功率與CAD重建方法幾乎一致，證明了其在實際應用中的潛力。這一工作為無資產、單演示的靈巧操作學習開闢了新道路，有望推動機器人在家庭、醫療、工業等領域的廣泛應用。論文編號arXiv:2606.08057。