2026-06-08站内改写2 分鐘閱讀更新: 2026-06-08

共訓練機器人操作策略時，日常人類視頻中的關鍵因素是什麼？

本文探究了利用日常互聯網視頻共訓練機器人操作策略時影響遷移效果的關鍵因素。作者構建了一個包含532段人類視頻、28小時高質量三角測量手部標註的新數據集，發現手部姿態質量影響遷移，但即使手部標註準確，視覺和策略網絡若不針對具體形態特化，動作差距仍會阻礙遷移。所提出的共訓練方法在低機器人數據場景下，六個操作任務的平均成功率提升了29.7%。

來源arXiv Robotics作者: Richard Li, Aditya Prakash, Andrew Wen, Saurabh Gupta, Yilun Du, Pulkit Agrawal

近年來，機器人學習領域的一個研究熱點是如何利用大量人類視頻數據來訓練機器人操作策略。傳統方法通常依賴於精心策劃的演示數據集，其中人類動作被編排得儘可能接近機器人行為，並藉助專用硬件捕捉3D手部姿態。然而，互聯網上存在着海量的日常人類視頻，這些視頻雖然更易獲取，但其動作模式與機器人操作存在顯著差異，如何有效利用這些數據成為一個開放性問題。

近日，一篇由Richard Li等五位作者提交的論文《What Matters When Cotraining Robot Manipulation Policies on Everyday Human Videos?》系統性地研究了這一問題。研究者構建了一個包含532段人類視頻、總計28小時高質量三角測量手部標註的新數據集，視頻中的動作自然且未經刻意編排。通過對比實驗，他們發現手部姿態的質量對遷移效果有顯著影響：更準確的3D手部標註有助於機器人學習模仿人類動作。然而，即使手部標註非常精確，日常視頻中固有的“動作差距”——即人類與機器人在運動學和動力學上的差異——仍然會阻礙遷移，除非視覺網絡和策略網絡能夠針對每類機器人形態進行特化。

基於這些發現，作者提出了一種共訓練（cotraining）方法。該方法在訓練過程中同時利用人類視頻和機器人演示數據，並讓網絡學習區分不同形態，從而縮小動作差距。實驗結果表明，在機器人數據量有限的低數據場景下，該共訓練方法在六項不同的操作任務上實現了平均29.7%的絕對成功率提升。這六項任務涵蓋了多種機器人操作技能，如抓取、放置、推拉等，充分驗證了方法的泛化能力。值得注意的是，即使在機器人數據極少（例如，每個任務僅提供少量演示）的情況下，共訓練模型仍然能夠從大量人類視頻中獲益，顯著超越僅使用機器人數據的基線方法。

這項研究為利用互聯網視頻資源降低機器人數據採集成本提供了重要指導，同時也揭示了數據質量和網絡架構設計之間的微妙平衡。未來工作可以進一步探索更復雜的場景，例如非靜態背景、多視角視頻以及不同機器人形態之間的遷移。此外，手部標註的質量雖然關鍵，但更高效的自動標註方法也是值得研究的方向。總之，該論文為機器人學習社區提供了一種實用的共訓練框架，有望推動機器人操作策略向更通用、更經濟的方向發展。