2026-07-01 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-07-01 16:16 UTC+8

ViTL：基於時序邏輯的零樣本自然語言導航視覺語言模型

ViTL框架利用大語言模型將自然語言命令編譯為線性時序邏輯公式，再轉換為確定性有限自動機以協調多通道價值地圖，並在導航層面引入方向評分，使機器人能夠零樣本完成多目標、帶時序約束的自然語言導航任務。在HM3D數據集上的實驗驗證了其有效性。

來源arXiv Robotics作者: Kaier Liang, Hengde Dai, Cristian-Ioan Vasile

研究人員提出了一種名為ViTL的新型框架，旨在讓機器人僅通過自然語言命令就能零樣本完成長時間跨度的多任務導航。這項研究解決了現有視覺語言模型（VLM）導航系統只能處理單目標任務的侷限，使得諸如“先清潔椅子或沙發，然後打開電視”這類包含時序和邏輯約束的指令得以執行。

ViTL的工作流程分為兩個關鍵層面。在任務層面，它首先利用大語言模型（LLM）將用户的自然語言指令解析為線性時序邏輯（LTL）公式。這些公式隨後被轉化為確定性有限自動機（DFA），用於協調多通道價值地圖，並在檢測到新物體時觸發動態重新規劃。這種將自然語言轉化為形式邏輯的方法，使得機器人能夠理解複雜的時序關係，例如“然後”、“要麼...要麼...”等邏輯連接詞。在導航層面，ViTL引入了方向評分機制：不同於傳統方法對整個視野給出無方向性的價值分數，該機制在觀測圖像上標記前沿方向，並從VLM中提取每個方向的得分，從而更精確地指導機器人移動。這種細粒度的方向信息顯著提高了導航決策的質量。

實驗基於Habitat-Matterport 3D（HM3D）數據集進行。結果表明，ViTL框架能夠零樣本完成具有時間約束的自然語言導航任務，並且方向評分顯著提高了單目標導航的準確性和效率。與基線方法相比，ViTL在任務完成率和導航效率上均有明顯提升。這一工作為零樣本長時序機器人導航開闢了新的可能，為後續將形式化方法與視覺語言模型相結合的研究提供了重要參考。未來，該團隊計劃將ViTL擴展到更復雜的多機器人協作場景，並探索如何進一步提高模型的魯棒性和泛化能力。