2026-06-17站内改写1 分鐘閱讀更新: 2026-06-17

對比動作-影像預訓練用於視覺運動控制

針對機器人視覺編碼器因缺乏大規模配對資料而受限的問題，研究人員提出CAIP方法，利用海量第一人稱人類影片中的手部姿態作為機器人末端執行器動作的代理，透過對比學習統一動作-影像表示。僅需88小時機器人資料與32041小時人類影片，CAIP在靈巧操作任務上相比DINOv2等模型效能提升超30%。

來源arXiv Robotics作者: Yuvan Sharma, Dantong Niu, Anirudh Pai, Zekai Wang, Zhuoyang Liu, Baifeng Shi, Stefano Saravalle, Boning Shao, Ruijie Zheng, Jing Wang, Konstantinos Kallidromitis, Yusuke Kato, Fabio Galasso, Yuke Zhu, Danfei Xu, Linxi "Jim" Fan, Jitendra Malik, Trevor Darrell, Roei Herzig

在機器人學習領域，視覺編碼器的預訓練一直受限於機器人資料集的規模不足。雖然利用網際網路影像、語言資料或第一人稱人類影片的方法在一定程度上緩解了這一問題，但這些方法並沒有學習到視覺運動控制策略所需的配對視覺-動作資料。為了解決這個根本性瓶頸，研究團隊提出了一種名為CAIP（Contrastive Action-Image Pre-training）的新方法。CAIP的核心思想是利用大規模第一人稱影片中的人類手部姿態作為機器人末端執行器動作的代理訊號，透過對比學習來統一影像特徵和動作表示。具體來說，CAIP從第一人稱影片中提取3D手部關鍵點，這些關鍵點天然地與下游機器人動作空間對齊，從而構建一個統一的動作-影像表示。在資料使用上，CAIP僅需88小時的機器人運算元據，同時利用了32041小時的第一人稱人類影片（如Ego4D資料集）。實驗結果表明，在使用Dexmate Vega和Sharpa Wave靈巧手的真實世界操作任務中，CAIP在摺疊毛巾、倒液體等精細操作任務上比DINOv2、SigLIP、MVP和R3M等現有最先進視覺編碼器效能提升超過30%。這項研究證明，以動作為中心的對比預訓練方法為實現適用於物理互動的魯棒視覺表徵提供了一條可擴充套件的路徑。論文已釋出於arXiv，並提供了程式碼和資料的連結。CAIP的成功表明，透過從人類影片中提取動作代理訊號，可以極大地減少對昂貴機器人資料的依賴，為機器人學習領域開闢了新的方向。