2026-07-01 12:00 UTC+8站内改写1 分钟阅读更新: 2026-07-01 16:17 UTC+8

从抓取到灵巧操作：大规模抓取预训练用于灵巧操作

本研究探索如何利用大规模灵巧抓取数据集来支持机器人完成铰接工具使用任务。研究者构建了355k轨迹的抓取预训练数据集，采用分层模仿学习框架，在仿真和真实实验中显著提升了任务成功率。

来源arXiv Robotics作者: Ying Yuan, Xinyu Liu, Sriram Krishna, David Held

近年来，机器人灵巧操作领域取得了显著进展，但大多数方法依赖于针对特定任务的大规模演示数据，泛化能力有限。本文提出了一种新方法，通过利用大规模灵巧抓取数据集进行预训练，增强机器人的灵巧操作能力，特别是针对铰接工具的使用。传统上，灵巧抓取数据集主要用于抓取生成和拾取放置操作，而这项研究拓展了其应用范围，使其能够支持铰接工具的使用——机器人需要获取工具、保持接触并操作其活动部件。研究团队采用分层模仿学习框架，包含高层的手部子目标预测和低层的目标条件控制器。高层模块根据当前状态预测手部关键点的目标位置，低层模块则生成实现这些目标所需的精细手指运动。他们从大规模灵巧抓取注释中构建了一个包含35.5万条轨迹的抓取预训练数据集，用于预训练低层控制器，使其学习到丰富的接触先验。随后，在下游任务演示上进行微调，以适应具体的工具使用任务。为了评估该设置，研究者引入了DexCraft仿真基准，包含六种需要协调手指运动的铰接工具使用任务，例如使用剪刀、钳子、扳手等。这些任务要求机器人同时实现稳定的抓取和精确的操作。在仿真和真实世界实验中，该方法均优于端到端扩散策略基线和从头训练的分层策略。在真实环境中，与DP3相比，全任务成功率提高了33.3个百分点，从大约40%提升至73.3%，展示了显著的性能提升。这些结果表明，抓取数据集不仅可以作为抓取合成的资源，还可以作为接触丰富灵巧操作的可扩展预训练数据。该工作由Ying Yuan等人在arXiv上发布，项目页面提供视频和代码。这一创新为机器人学习提供了新的视角，即利用现有的大规模数据集进行预训练，从而减少对任务特定数据的需求，加速机器人在复杂操作任务上的部署。