AI News HubLIVE
站内改写1 分钟阅读

ContactWorld: 接触丰富操作中视觉-触觉世界模型的关键因素

ContactWorld基准测试覆盖12项接触丰富的操作任务,发现空间结构化且时间连续的表示(如点云)能显著提升规划成功率至32.1%。触觉传感的有效性取决于跨模态表示兼容性,结合点云与触觉力场表示可达最佳性能36.1%。触觉在长周期规划中愈发重要。

来源arXiv Robotics作者: Zhiyuan Zhang, Pokuang Zhou, Kaidi Zhang, Adeesh Desai, Temitope Amosa, Davood Soleymanzadeh, Jiuzhou Lei, Minghui Zheng, Yu She

在机器人操作领域,接触丰富的任务如插入、拆卸、拧螺丝和探索性交互对世界模型提出了严峻挑战。这些模型必须能够从视觉和触觉等多模态感官数据中推理复杂的接触动力学。然而,哪些表示属性对稳定的长期规划至关重要,此前尚不明确。为了解决这一问题,研究人员提出了ContactWorld基准,这是一个系统的实证研究框架,涵盖12项接触丰富的操作任务。通过大量实验,他们发现具有空间结构化和时间连续性的表示能够实现最强的规划性能。特别地,使用点云观测可将平均规划成功率从手腕视角的20.7%和前方视角的22.0%提升至32.1%。进一步研究表明,触觉传感的有效性并非简单地增加模态即可达成,而是关键取决于跨模态表示的兼容性。将点云观测与触觉力场表示相结合,后者保留了更丰富的空间结构和交互动力学,可使性能进一步提升至36.1%,在所有评估任务中取得最佳整体规划性能。此外,触觉传感在长期规划目标下变得日益重要。这是因为随着时间的推移,预测误差和接触不确定性会累积,而触觉信息有助于缓解这些问题。这些发现共同强调了表示结构、多模态兼容性和长期鲁棒性在接触丰富机器人操作的视觉-触觉世界模型中的核心作用。这项研究为未来机器人操作系统的设计提供了重要指导,特别是在需要精细接触交互的场景中,如工业装配、医疗手术和家庭服务等。ContactWorld基准的公开也将促进该领域的标准化评估和进一步研究。