MoDex:用于序列多物体灵巧抓取的扩散策略
MoDex是一种基于扩散模型的策略,使灵巧手能够在保持已抓取物体的同时,顺序抓取多个物体。通过条件化对掌空间和点云,每次抓取仅使用部分手指自由度。两阶段训练(模仿学习+强化学习微调)提升了仿真与现实中的成功率。
在机器人操作领域,灵巧抓取一直是核心挑战之一。然而,大多数现有的灵巧抓取方法倾向于将所有的手指自由度都用于抓取单个物体,这不仅浪费了灵巧手的潜力,也使得无法连续抓取多个物体。在实际应用如装配或分拣任务中,机器人往往需要在不释放已抓取物体的情况下,顺序地抓取多个物体。针对这一问题,来自多所机构的研究人员提出了MoDex——一种基于扩散模型的顺序多物体灵巧抓取策略。
MoDex的核心创新在于其条件化的对掌空间(opposition space)设计。对掌空间定义了哪些手指参与当前的抓取动作。通过将策略条件化于对掌空间,MoDex能够仅使用手的一部分自由度完成当前抓取,而将剩余的自由度保留给后续物体。这样一来,灵巧手可以连续地抓取多个物体,而无需释放任何已抓取的物体。MoDex直接从传感器观测(如点云)预测下一个抓取姿态,充分利用了扩散模型在生成复杂分布方面的优势。
为了弥合仿真与现实之间的差距,MoDex采用了两阶段的训练方法。首先,通过模仿学习从人类专家演示中学习基本的抓取技能。然后,利用强化学习进行微调,进一步优化策略,以提升在真实环境中的成功率和鲁棒性。实验结果表明,强化学习微调能够一致地提高预训练策略的性能。
研究团队在仿真环境和真实硬件平台上对MoDex进行了评估。仿真基于MuJoCo的Franka Emika Panda机器人配备Allegro手,真实平台则使用相同的硬件配置。与多种学习基线方法相比,MoDex在仿真中取得了2.92%至17.92%的成功率提升,在真实实验中提升了6.67%至17.78%。这些结果充分证明了MoDex在顺序多物体灵巧抓取任务中的优越性能。研究论文已被提交至CoRL 2026,相关代码和演示可在项目页面获取。