2026-06-01 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

VLM-GLoc：視覺語言模型增強的蒙特卡洛定位方法，用於雜亂準靜態環境下的魯棒語義全局定位

VLM-GLoc提出一種利用開放詞彙視覺語言模型（VLM）作為統一語義觀測前端的分層語義蒙特卡洛定位方法。該方法在幾何模糊且準靜態的環境（如雜貨店、辦公室等）中，通過提取區分性文本特徵、隱式質量過濾和持久性推理實現數據增強，並引入逆語義提議機制。在3500平方英尺雜貨店和3700平方英尺實驗室的實驗中，分別達到70%和74%的全局定位成功率，顯著優於傳統方法。

來源arXiv Robotics作者: Shivendra Agrawal, Bradley Hayes

對於移動機器人而言，在幾何結構相似且準靜態的環境中實現全局定位是一項極具挑戰的任務。典型的室內環境如雜貨店（平行貨架和長尾分佈的商品）、辦公室和實驗室（重複的椅子、桌子、顯示器、門等）不僅存在幾何歧義，甚至語義上也難以區分。傳統的定位方法要麼依賴獨特的幾何特徵，要麼使用特定領域的視覺流水線，但這些方法在處理長尾語義分佈和瞬態視覺雜亂時表現不佳。近日，研究人員提出了一種名為VLM-GLoc的新方法，該方法利用開放詞彙的視覺語言模型（VLM）作為統一的語義觀測前端，實現了分層的語義蒙特卡洛定位（MCL）。該工作的核心假設是VLM能帶來三重好處：首先，提取高度區分性的豐富文本特徵；其次，對模糊或動態物體進行隱式質量過濾；最後，通過持久性推理實現針對性的數據增強。此外，VLM-GLoc還引入了一種逆語義提議機制，通過文本到地圖的檢索來初始化粒子。為了驗證方法的有效性，研究團隊在兩個真實世界環境中進行了評估：一個3500平方英尺的雜貨店（使用手機作為平台）和一個3700平方英尺的實驗室空間（使用四足機器人）。實驗結果表明，VLM-GLoc分別實現了70%和74%的全局定位成功率，大幅超越了傳統的僅幾何方法和特定領域基線。該研究為移動機器人在複雜室內環境中的魯棒定位提供了新的思路，展示了開放詞彙VLM在機器人感知中的巨大潛力。通過利用VLM的豐富語義理解能力，VLM-GLoc能夠在高度模糊的環境中有效區分不同區域，從而顯著提升定位的準確性和魯棒性。未來，該方法有望應用於更廣泛的場景，如倉庫自動化、家庭服務機器人等，進一步推動智能機器人的自主導航能力。