2026-06-08站内改写2 分鐘閱讀更新: 2026-06-08

共訓練機器人操作策略時，日常人類影片中的關鍵因素是什麼？

本文探究了利用日常網際網路影片共訓練機器人操作策略時影響遷移效果的關鍵因素。作者構建了一個包含532段人類影片、28小時高質量三角測量手部標註的新資料集，發現手部姿態質量影響遷移，但即使手部標註準確，視覺和策略網路若不針對具體形態特化，動作差距仍會阻礙遷移。所提出的共訓練方法在低機器人資料場景下，六個操作任務的平均成功率提升了29.7%。

來源arXiv Robotics作者: Richard Li, Aditya Prakash, Andrew Wen, Saurabh Gupta, Yilun Du, Pulkit Agrawal

近年來，機器人學習領域的一個研究熱點是如何利用大量人類影片資料來訓練機器人操作策略。傳統方法通常依賴於精心策劃的演示資料集，其中人類動作被編排得儘可能接近機器人行為，並藉助專用硬體捕捉3D手部姿態。然而，網際網路上存在著海量的日常人類影片，這些影片雖然更易獲取，但其動作模式與機器人操作存在顯著差異，如何有效利用這些資料成為一個開放性問題。

近日，一篇由Richard Li等五位作者提交的論文《What Matters When Cotraining Robot Manipulation Policies on Everyday Human Videos?》系統性地研究了這一問題。研究者構建了一個包含532段人類影片、總計28小時高質量三角測量手部標註的新資料集，影片中的動作自然且未經刻意編排。透過對比實驗，他們發現手部姿態的質量對遷移效果有顯著影響：更準確的3D手部標註有助於機器人學習模仿人類動作。然而，即使手部標註非常精確，日常影片中固有的“動作差距”——即人類與機器人在運動學和動力學上的差異——仍然會阻礙遷移，除非視覺網路和策略網路能夠針對每類機器人形態進行特化。

基於這些發現，作者提出了一種共訓練（cotraining）方法。該方法在訓練過程中同時利用人類影片和機器人演示資料，並讓網路學習區分不同形態，從而縮小動作差距。實驗結果表明，在機器人資料量有限的低資料場景下，該共訓練方法在六項不同的操作任務上實現了平均29.7%的絕對成功率提升。這六項任務涵蓋了多種機器人操作技能，如抓取、放置、推拉等，充分驗證了方法的泛化能力。值得注意的是，即使在機器人資料極少（例如，每個任務僅提供少量演示）的情況下，共訓練模型仍然能夠從大量人類影片中獲益，顯著超越僅使用機器人資料的基線方法。

這項研究為利用網際網路影片資源降低機器人資料採整合本提供了重要指導，同時也揭示了資料質量和網路架構設計之間的微妙平衡。未來工作可以進一步探索更復雜的場景，例如非靜態背景、多視角影片以及不同機器人形態之間的遷移。此外，手部標註的質量雖然關鍵，但更高效的自動標註方法也是值得研究的方向。總之，該論文為機器人學習社群提供了一種實用的共訓練框架，有望推動機器人操作策略向更通用、更經濟的方向發展。