2026-06-12站内改写1 分鐘閱讀更新: 2026-06-12

EgoEngine：從人類自我中心視頻到高保真靈巧機器人演示

EgoEngine是一個可擴展的框架，能夠將自我中心的人類操作視頻轉換為高保真的機器人觀察視頻和可執行的動作軌跡，從而克服了從人類演示到機器人學習中的視覺和動作鴻溝。該方法在仿真和真實機器人上實現了零樣本的靈巧策略學習，無需真實的機器人演示數據。

來源arXiv Robotics作者: Yangcen Liu, Shuo Cheng, Xinchen Yin, Woo Chul Shin, Alfred Cueva, Yiran Yang, Zhenyang Chen, Chuye Zhang, Danfei Xu

靈巧操作是機器人領域的一個重要目標，但大規模收集機器人演示數據成本高昂。自我中心的人類視頻提供了一種可擴展的多樣化操作行為來源，然而直接將其用於機器人學習需要克服兩個關鍵障礙：人類與機器人觀察之間的視覺差異，以及人類運動與機器人可執行動作之間的動作差異。

為此，來自研究團隊的Yangcen Liu等人提出了EgoEngine，這是一個創新的可擴展框架，旨在將自我中心的人類操作視頻轉化為高保真的機器人數據。給定一段自我中心的RGB視頻，EgoEngine能夠生成兩大輸出：首先，一個高保真的機器人觀察視頻，其中人類被替換為機器人，同時保留場景上下文和時間對齊；其次，在可行性約束下，一個與任務對齊且可執行的機器人動作軌跡。這一過程使得從人類視頻中提取的演示數據能夠直接用於機器人學習。

實驗在仿真環境和真實機器人上均進行了驗證，結果表明EgoEngine能夠有效且可擴展地將人類視頻轉換為機器人數據。據研究人員所知，這是首個無需真實機器人演示，即從自我中心人類視頻中實現零樣本視覺-運動靈巧策略學習的工作。該成果為機器人學習領域提供了新的可能性，極大降低了數據收集的成本和門檻。項目網站（https://egoengine.github.io）提供了更多詳細信息和演示視頻。該論文已於2026年6月10日提交至arXiv，編號為2606.12604。