2026-06-01 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

VLM-GLoc：视觉语言模型增强的蒙特卡洛定位方法，用于杂乱准静态环境下的鲁棒语义全局定位

VLM-GLoc提出一种利用开放词汇视觉语言模型（VLM）作为统一语义观测前端的分层语义蒙特卡洛定位方法。该方法在几何模糊且准静态的环境（如杂货店、办公室等）中，通过提取区分性文本特征、隐式质量过滤和持久性推理实现数据增强，并引入逆语义提议机制。在3500平方英尺杂货店和3700平方英尺实验室的实验中，分别达到70%和74%的全局定位成功率，显著优于传统方法。

来源arXiv Robotics作者: Shivendra Agrawal, Bradley Hayes

对于移动机器人而言，在几何结构相似且准静态的环境中实现全局定位是一项极具挑战的任务。典型的室内环境如杂货店（平行货架和长尾分布的商品）、办公室和实验室（重复的椅子、桌子、显示器、门等）不仅存在几何歧义，甚至语义上也难以区分。传统的定位方法要么依赖独特的几何特征，要么使用特定领域的视觉流水线，但这些方法在处理长尾语义分布和瞬态视觉杂乱时表现不佳。近日，研究人员提出了一种名为VLM-GLoc的新方法，该方法利用开放词汇的视觉语言模型（VLM）作为统一的语义观测前端，实现了分层的语义蒙特卡洛定位（MCL）。该工作的核心假设是VLM能带来三重好处：首先，提取高度区分性的丰富文本特征；其次，对模糊或动态物体进行隐式质量过滤；最后，通过持久性推理实现针对性的数据增强。此外，VLM-GLoc还引入了一种逆语义提议机制，通过文本到地图的检索来初始化粒子。为了验证方法的有效性，研究团队在两个真实世界环境中进行了评估：一个3500平方英尺的杂货店（使用手机作为平台）和一个3700平方英尺的实验室空间（使用四足机器人）。实验结果表明，VLM-GLoc分别实现了70%和74%的全局定位成功率，大幅超越了传统的仅几何方法和特定领域基线。该研究为移动机器人在复杂室内环境中的鲁棒定位提供了新的思路，展示了开放词汇VLM在机器人感知中的巨大潜力。通过利用VLM的丰富语义理解能力，VLM-GLoc能够在高度模糊的环境中有效区分不同区域，从而显著提升定位的准确性和鲁棒性。未来，该方法有望应用于更广泛的场景，如仓库自动化、家庭服务机器人等，进一步推动智能机器人的自主导航能力。