AI News HubLIVE
站内改写2 分钟阅读

IntentNav:从人类演示中学习空间视觉物体导航

IntentNav是一种从人类演示中学习类人物体导航策略的框架。它通过前沿的人类意图标注方法推断高层搜索意图,并利用空间视觉候选空间实现高效探索。在多个基准测试中达到最先进性能,且零样本迁移到多种机器人平台。

来源arXiv Robotics作者: Yuxin Cai, Zongtai Li, Maonan Wang, Muyi Bao, Haokun Zhu, Ruofei Bai, Ding Zhao, Zirui Li, Wenshan Wang, Wei-Yun Yau, Ji Zhang, Chen Lv

研究人员提出了一种名为IntentNav的新型框架,旨在通过模仿人类演示来训练机器人执行物体导航任务。物体导航要求机器人在未知环境中搜索未观察到的目标,在部分可观测条件下决定下一步探索位置。高效的搜索类似于人类探索:有选择性地探测视觉上具有前景的前沿区域,同时依赖空间记忆避免重复访问。

IntentNav的核心创新在于它能够从低级的人类动作中推断出高级搜索意图。为此,研究团队提出了“基于前沿的人类意图标注”方法,通过前瞻性分析人类演示,标记出最能解释演示者未来搜索方向的前沿区域。具体来说,该方法会查看人类演示中后续的移动,然后选择能够最好地解释这些未来动作的前沿作为意图标签。这使得机器人能够学习类似于人类的探索行为。

为了实现基于意图的导航,IntentNav构建了一个空间视觉候选空间。该候选空间由两个记忆模块组成:鸟瞰图(BEV)记忆和第一人称视觉记忆。BEV记忆跟踪已探索区域、未探索前沿和轨迹历史,提供全局空间信息;而第一人称视觉记忆则为每个候选区域提供语义线索,如场景中的物体和布局。基于这些信息,一个视觉语言模型(VLM)策略被训练来选择最合适的候选区域。该策略使用意图对齐目标函数,鼓励模型选择与人类意图一致的候选,从而促进行为的一致性和类人性。

实验结果表明,IntentNav在三个标准物体导航基准测试中均达到了最先进的性能:MP3D、HM3D-v1和HM3D-v2。在MP3D数据集上,IntentNav的成功率显著高于此前的最佳方法,SPL指标也大幅提升。消融实验证实,移除意图对齐目标函数或空间视觉记忆模块会导致性能显著下降,验证了每个组件的必要性。更重要的是,该框架的候选级导航界面无需额外的VLM微调,即可零样本迁移到不同类型的机器人平台,包括轮式机器人、四足机器人和人形机器人。这一特性大大增强了其在实际应用中的灵活性和泛化能力。

该研究由Yuxin Cai等12位作者完成,论文共26页,包含9幅图表。项目页面已开放,代码可在匿名仓库中获取。这项研究为机器人导航领域提供了新的思路,通过模仿人类智能,使机器人能够更自然、高效地完成复杂搜索任务。未来,该技术有望在家庭服务、仓储物流、搜索救援等场景中发挥重要作用。