SceneBot:基于接触提示的通用人形全身追踪与场景交互
SceneBot是一种统一的人形运动追踪框架,能够处理自由空间运动、地形穿越和全身操控。通过将参考运动与每个关节的接触标签相结合,它显式定义了预期的环境交互。为解决交互数据不足的问题,研究团队提出了一种事后场景重建方法,从重定向的人体运动中推断场景交互图。经过7.5小时的重建接触丰富数据训练,SceneBot成功泛化到未见过的运动和环境,实现了如搬箱上楼等复杂、长时任务。这是首个无缝统一自由空间和接触丰富行为的通用框架。
当前人形机器人强化学习策略在自由空间运动中表现出色,但在涉及物体交互或不平地形行走等接触丰富的任务中面临巨大挑战。纯运动学追踪无法解决与物体和复杂地形交互时的物理歧义问题。为了攻克这一难题,来自多所机构的研究人员推出了SceneBot——一个统一的运动追踪框架,能够同时处理自由空间运动、地形穿越和全身操控等广泛任务。
SceneBot的核心创新在于将单个策略同时基于参考运动轨迹和每个关节的接触标签进行条件化。这种方法显式定义了机器人与其环境的预期交互方式,使机器人能够区分何时应该与物体接触、何时应该保持自由运动。然而,带注释的交互数据极为稀缺,这限制了传统监督学习方法的应用。为此,研究团队开发了一种事后场景重建方法:通过将人体演示运动重新定向到人形机器人上,从中推断场景交互图,从而自动生成大量的接触丰富训练数据。
利用这种方法,团队收集了7.5小时的重建数据,并基于此训练SceneBot。实验结果表明,SceneBot能够成功泛化到未见过的运动和环境,不仅执行自由空间运动,还能完成如搬箱上楼等复杂的、需要长时间规划的任务。研究团队认为,接触条件化是控制人形机器人的一种强大接口,而SceneBot是首个将自由空间和接触丰富行为无缝统一的通用框架。该研究成果已于2026年6月25日提交至arXiv,所有代码和数据将开源发布,更多演示可在项目网站查看。