SurveilNav:机器人与监控系统协同的物体目标导航
一种新型室内协同物体导航数据集及框架SurveilNav,通过整合主动相机调度、联合2D/3D地图、基于视觉语言模型的价值估计和协同目标验证,克服了单机器人感知范围有限和固定摄像头盲区的局限。在HM3D数据集上的实验表明,该方法在探索效率和导航成功率上均达到最优水平,有望应用于大规模搜索、家庭环境和救援任务。
随着工厂、办公室和家庭中监控系统的日益普及,将监控系统与机器人集成为协同高效执行任务提供了有前景的发展方向。然而,现有方法主要聚焦于单机器人场景,在大型环境中的多视角协作方面存在困难。为解决这一问题,研究者基于Habitat-Sim构建了一个全新的室内协同物体导航数据集,涵盖74个楼层共206个摄像头,从而能够系统评估智能体利用多视角监控信息的能力。该数据集覆盖了多种室内布局和光照条件,为训练和评估提供了丰富的场景多样性。
针对单机器人感知的局限性,该团队提出了SurveilNav协同导航框架,该框架集成了主动摄像头调度、联合2D/3D地图构建、基于视觉语言模型(VLM)的价值估计以及协同目标验证。主动摄像头调度模块能够根据机器人的当前位置和任务需求,动态选择最合适的监控摄像头提供辅助视角。联合2D/3D地图构建则融合了机器人的局部观测与监控的全局视图,生成一个统一的环境表示。VLM-based价值估计利用大规模预训练的视觉语言模型来评估不同导航行动的价值,提高决策的准确性。协同目标验证模块则通过机器人-摄像头之间的双向确认来确保目标定位的可靠性。
通过将机器人的动态局部感知与监控系统的静态全局视角相结合,该架构有效克服了单机器人感知范围有限和固定摄像头固有盲区的问题,解决了低效探索的难题。在HM3D数据集上的实验结果显示,SurveilNav在探索效率和导航成功率方面均大幅优于现有方法,达到了当前最优性能。具体来说,与基线方法相比,导航成功率提升了约15%,探索效率提升了20%以上。此外,该系统在大规模搜索、家庭环境和救援任务等应用场景中展现出巨大潜力。该研究成果已被ICRA 2026接收,展示了其在机器人导航领域的创新性和实用性。