2026-06-02 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

弥合2D-3D鸿沟：用于视觉语言导航的分层语义几何地图

一种名为HSGM的新型零样本框架通过将3D信息转换为与VLM兼容的分层地图，弥合了视觉语言导航中的语义几何鸿沟，在R2R-CE和RxR-CE基准测试上取得了最先进的性能。

来源arXiv Computer Vision作者: Kailing Li, Tianwen Qian, Lijin Yang, Yuqian Fu, Jingyu Gong, Xiaoling Wang, Liang He

视觉语言导航（VLN）旨在使具身智能体通过遵循自然语言指令在未知环境中达到目标位置。尽管近年来视觉语言模型（VLM）在语言理解和二维视觉识别上取得了显著进展，但它们在进行三维空间推理时仍然面临严重挑战。具体而言，VLM难以捕捉动作与空间变换之间的因果关系，导致在零样本设置下导航可靠性不足。为了解决这一语义-几何鸿沟，研究人员提出了分层语义几何地图（HSGM）。HSGM将三维几何信息转换为与VLM兼容的结构化表示，从而有效连接VLM与物理世界。

HSGM表示为多通道俯视图，包含三个层次：几何层记录可通行区域和障碍物，利用占用地图和高度图编码空间结构；语义层表示物体及其关系，通过目标检测和场景图构建实体与关联；决策层支持高层任务推理和目标选择，融合任务上下文。在导航过程中，VLM（如GPT-4V）作为高层语义规划器，通过解读HSGM中的决策层选择几何上有效的路径点，而路径点之间的低层无碰撞移动则由经典路径规划算法（如快速行进法）执行，从而完全解耦语义推理与动作执行。此外，复杂指令被分解为子任务，采用基于规则的方法将长指令切分为较短片段，以缓解长程导航中的进展遗忘或幻觉问题。

在R2R-CE（Room-to-Room连续扩展）和RxR-CE（跨房间）基准上的大量实验表明，该零样本框架达到了最先进的性能，成功率高达70%，比之前的最佳零样本方法提升15%，甚至超越了一些有监督基线。代码已在GitHub上开源。这项工作有效弥合了二维视觉与三维空间推理之间的鸿沟，为视觉语言导航领域提供了新的思路和实用解决方案。