2026-06-09站内改写2 分钟阅读更新: 2026-06-09

IntentNav：从人类演示中学习空间视觉物体导航

IntentNav是一种从人类演示中学习类人物体导航策略的框架。它通过前沿的人类意图标注方法推断高层搜索意图，并利用空间视觉候选空间实现高效探索。在多个基准测试中达到最先进性能，且零样本迁移到多种机器人平台。

来源arXiv Robotics作者: Yuxin Cai, Zongtai Li, Maonan Wang, Muyi Bao, Haokun Zhu, Ruofei Bai, Ding Zhao, Zirui Li, Wenshan Wang, Wei-Yun Yau, Ji Zhang, Chen Lv

研究人员提出了一种名为IntentNav的新型框架，旨在通过模仿人类演示来训练机器人执行物体导航任务。物体导航要求机器人在未知环境中搜索未观察到的目标，在部分可观测条件下决定下一步探索位置。高效的搜索类似于人类探索：有选择性地探测视觉上具有前景的前沿区域，同时依赖空间记忆避免重复访问。

IntentNav的核心创新在于它能够从低级的人类动作中推断出高级搜索意图。为此，研究团队提出了“基于前沿的人类意图标注”方法，通过前瞻性分析人类演示，标记出最能解释演示者未来搜索方向的前沿区域。具体来说，该方法会查看人类演示中后续的移动，然后选择能够最好地解释这些未来动作的前沿作为意图标签。这使得机器人能够学习类似于人类的探索行为。

为了实现基于意图的导航，IntentNav构建了一个空间视觉候选空间。该候选空间由两个记忆模块组成：鸟瞰图（BEV）记忆和第一人称视觉记忆。BEV记忆跟踪已探索区域、未探索前沿和轨迹历史，提供全局空间信息；而第一人称视觉记忆则为每个候选区域提供语义线索，如场景中的物体和布局。基于这些信息，一个视觉语言模型（VLM）策略被训练来选择最合适的候选区域。该策略使用意图对齐目标函数，鼓励模型选择与人类意图一致的候选，从而促进行为的一致性和类人性。

实验结果表明，IntentNav在三个标准物体导航基准测试中均达到了最先进的性能：MP3D、HM3D-v1和HM3D-v2。在MP3D数据集上，IntentNav的成功率显著高于此前的最佳方法，SPL指标也大幅提升。消融实验证实，移除意图对齐目标函数或空间视觉记忆模块会导致性能显著下降，验证了每个组件的必要性。更重要的是，该框架的候选级导航界面无需额外的VLM微调，即可零样本迁移到不同类型的机器人平台，包括轮式机器人、四足机器人和人形机器人。这一特性大大增强了其在实际应用中的灵活性和泛化能力。

该研究由Yuxin Cai等12位作者完成，论文共26页，包含9幅图表。项目页面已开放，代码可在匿名仓库中获取。这项研究为机器人导航领域提供了新的思路，通过模仿人类智能，使机器人能够更自然、高效地完成复杂搜索任务。未来，该技术有望在家庭服务、仓储物流、搜索救援等场景中发挥重要作用。