AI News HubLIVE
站内改写2 分钟阅读

OmniContact:通过接触流链式元技能实现通用人形机器人移动操作

本文提出OmniContact分层框架,核心是接触流(CF)表示,由关键身体轨迹和时序二进制接触信号组成。底层策略CF-Track学习统一技能库,高层模块CF-Gen启发式合成未来接触流序列。在搬运箱子和推叠箱子任务中分别达到98.7%和76.5%成功率,显著超越基线。框架支持与视觉语言模型集成,实现语义驱动的复杂操作。

来源arXiv Robotics作者: Runyi Yu, Xiaoyi Lin, Ji Ma, Yinhuai Wang, Koukou Luo, Jiahao Ji, Huayi Wang, Wenjia Wang, Runhan Zhang, Ping Tan, Ting Wu, Ruoli Dai, Qifeng Chen, Lei Han

人形机器人执行长时间、多步骤的移动操作任务(如搬运箱子或堆叠物体)面临双重挑战:不仅需要稳健地执行单个元技能,还必须能够将这些技能无缝链式组合,并在失败时自主恢复。现有方法要么依赖显式的人机交互表示(如接触点、力传感器),虽精确但难以用于高层规划;要么使用隐式技能嵌入,虽紧凑但缺乏可解释性,难以可靠组合。

针对这一难题,来自多所机构的研究人员提出了OmniContact框架,其核心创新在于“接触流”(Contact Flow, CF)——一种紧凑的表示,由关键身体部位的运动轨迹和时序二进制接触信号组成。接触流作为高层规划与底层执行之间的共享接口。底层策略CF-Track通过模仿学习或强化学习,从接触流中学习一个统一的移动操作技能库;高层模块CF-Gen则基于当前状态和任务目标,启发式地生成未来的接触流序列。这种分层设计使得系统能够稳健执行、自主失败恢复,并灵活组合元技能。

为了支持训练,研究团队还收集了OmniContact数据集,这是一个基于动作捕捉的人机交互语料库,专门用于人形机器人移动操作。实验结果显示,OmniContact在两个标准任务中表现卓越:在“搬运箱子”任务中成功率达到98.7%,在“推叠箱子”任务中达到76.5%,相比之前的最佳基线,元技能执行成功率平均提升40.9%,技能链式成功率提升66.5%。

此外,OmniContact天然支持与视觉语言模型(VLM)集成。通过VLM进行语义任务分解,系统可理解高层指令(如“将散落的箱子排成心形”),并自动生成对应的接触流序列,实现复杂的语义驱动操作行为。这一工作为通用人形机器人操作提供了全新思路,有望在家庭服务、工业制造和灾难响应等领域发挥重要作用。

研究的突破在于,OmniContact通过接触流这一紧凑表示,成功弥合了高层规划与底层执行之间的鸿沟。与现有方法相比,它既保留了显式表示的精确性,又具备隐式表示的灵活性,同时提供了可解释性。未来的工作可以进一步扩展接触流的概念,将其应用于更复杂的多机器人协作场景,或者结合更多的感知模态,以提升机器人在未知环境中的适应性。