2026-06-08站内改写2 分钟阅读更新: 2026-06-08

共训练机器人操作策略时，日常人类视频中的关键因素是什么？

本文探究了利用日常互联网视频共训练机器人操作策略时影响迁移效果的关键因素。作者构建了一个包含532段人类视频、28小时高质量三角测量手部标注的新数据集，发现手部姿态质量影响迁移，但即使手部标注准确，视觉和策略网络若不针对具体形态特化，动作差距仍会阻碍迁移。所提出的共训练方法在低机器人数据场景下，六个操作任务的平均成功率提升了29.7%。

来源arXiv Robotics作者: Richard Li, Aditya Prakash, Andrew Wen, Saurabh Gupta, Yilun Du, Pulkit Agrawal

近年来，机器人学习领域的一个研究热点是如何利用大量人类视频数据来训练机器人操作策略。传统方法通常依赖于精心策划的演示数据集，其中人类动作被编排得尽可能接近机器人行为，并借助专用硬件捕捉3D手部姿态。然而，互联网上存在着海量的日常人类视频，这些视频虽然更易获取，但其动作模式与机器人操作存在显著差异，如何有效利用这些数据成为一个开放性问题。

近日，一篇由Richard Li等五位作者提交的论文《What Matters When Cotraining Robot Manipulation Policies on Everyday Human Videos?》系统性地研究了这一问题。研究者构建了一个包含532段人类视频、总计28小时高质量三角测量手部标注的新数据集，视频中的动作自然且未经刻意编排。通过对比实验，他们发现手部姿态的质量对迁移效果有显著影响：更准确的3D手部标注有助于机器人学习模仿人类动作。然而，即使手部标注非常精确，日常视频中固有的“动作差距”——即人类与机器人在运动学和动力学上的差异——仍然会阻碍迁移，除非视觉网络和策略网络能够针对每类机器人形态进行特化。

基于这些发现，作者提出了一种共训练（cotraining）方法。该方法在训练过程中同时利用人类视频和机器人演示数据，并让网络学习区分不同形态，从而缩小动作差距。实验结果表明，在机器人数据量有限的低数据场景下，该共训练方法在六项不同的操作任务上实现了平均29.7%的绝对成功率提升。这六项任务涵盖了多种机器人操作技能，如抓取、放置、推拉等，充分验证了方法的泛化能力。值得注意的是，即使在机器人数据极少（例如，每个任务仅提供少量演示）的情况下，共训练模型仍然能够从大量人类视频中获益，显著超越仅使用机器人数据的基线方法。

这项研究为利用互联网视频资源降低机器人数据采集成本提供了重要指导，同时也揭示了数据质量和网络架构设计之间的微妙平衡。未来工作可以进一步探索更复杂的场景，例如非静态背景、多视角视频以及不同机器人形态之间的迁移。此外，手部标注的质量虽然关键，但更高效的自动标注方法也是值得研究的方向。总之，该论文为机器人学习社区提供了一种实用的共训练框架，有望推动机器人操作策略向更通用、更经济的方向发展。