2026-06-17站内改写1 分鐘閱讀更新: 2026-06-17

對比動作-圖像預訓練用於視覺運動控制

針對機器人視覺編碼器因缺乏大規模配對數據而受限的問題，研究人員提出CAIP方法，利用海量第一人稱人類視頻中的手部姿態作為機器人末端執行器動作的代理，通過對比學習統一動作-圖像表示。僅需88小時機器人數據與32041小時人類視頻，CAIP在靈巧操作任務上相比DINOv2等模型性能提升超30%。

來源arXiv Robotics作者: Yuvan Sharma, Dantong Niu, Anirudh Pai, Zekai Wang, Zhuoyang Liu, Baifeng Shi, Stefano Saravalle, Boning Shao, Ruijie Zheng, Jing Wang, Konstantinos Kallidromitis, Yusuke Kato, Fabio Galasso, Yuke Zhu, Danfei Xu, Linxi "Jim" Fan, Jitendra Malik, Trevor Darrell, Roei Herzig

在機器人學習領域，視覺編碼器的預訓練一直受限於機器人數據集的規模不足。雖然利用互聯網圖像、語言數據或第一人稱人類視頻的方法在一定程度上緩解了這一問題，但這些方法並沒有學習到視覺運動控制策略所需的配對視覺-動作數據。為了解決這個根本性瓶頸，研究團隊提出了一種名為CAIP（Contrastive Action-Image Pre-training）的新方法。CAIP的核心思想是利用大規模第一人稱視頻中的人類手部姿態作為機器人末端執行器動作的代理信號，通過對比學習來統一圖像特徵和動作表示。具體來説，CAIP從第一人稱視頻中提取3D手部關鍵點，這些關鍵點天然地與下游機器人動作空間對齊，從而構建一個統一的動作-圖像表示。在數據使用上，CAIP僅需88小時的機器人操作數據，同時利用了32041小時的第一人稱人類視頻（如Ego4D數據集）。實驗結果表明，在使用Dexmate Vega和Sharpa Wave靈巧手的真實世界操作任務中，CAIP在摺疊毛巾、倒液體等精細操作任務上比DINOv2、SigLIP、MVP和R3M等現有最先進視覺編碼器性能提升超過30%。這項研究證明，以動作為中心的對比預訓練方法為實現適用於物理交互的魯棒視覺表徵提供了一條可擴展的路徑。論文已發佈於arXiv，並提供了代碼和數據的鏈接。CAIP的成功表明，通過從人類視頻中提取動作代理信號，可以極大地減少對昂貴機器人數據的依賴，為機器人學習領域開闢了新的方向。