ViTL:基于时序逻辑的零样本自然语言导航视觉语言模型
ViTL框架利用大语言模型将自然语言命令编译为线性时序逻辑公式,再转换为确定性有限自动机以协调多通道价值地图,并在导航层面引入方向评分,使机器人能够零样本完成多目标、带时序约束的自然语言导航任务。在HM3D数据集上的实验验证了其有效性。
研究人员提出了一种名为ViTL的新型框架,旨在让机器人仅通过自然语言命令就能零样本完成长时间跨度的多任务导航。这项研究解决了现有视觉语言模型(VLM)导航系统只能处理单目标任务的局限,使得诸如“先清洁椅子或沙发,然后打开电视”这类包含时序和逻辑约束的指令得以执行。
ViTL的工作流程分为两个关键层面。在任务层面,它首先利用大语言模型(LLM)将用户的自然语言指令解析为线性时序逻辑(LTL)公式。这些公式随后被转化为确定性有限自动机(DFA),用于协调多通道价值地图,并在检测到新物体时触发动态重新规划。这种将自然语言转化为形式逻辑的方法,使得机器人能够理解复杂的时序关系,例如“然后”、“要么...要么...”等逻辑连接词。在导航层面,ViTL引入了方向评分机制:不同于传统方法对整个视野给出无方向性的价值分数,该机制在观测图像上标记前沿方向,并从VLM中提取每个方向的得分,从而更精确地指导机器人移动。这种细粒度的方向信息显著提高了导航决策的质量。
实验基于Habitat-Matterport 3D(HM3D)数据集进行。结果表明,ViTL框架能够零样本完成具有时间约束的自然语言导航任务,并且方向评分显著提高了单目标导航的准确性和效率。与基线方法相比,ViTL在任务完成率和导航效率上均有明显提升。这一工作为零样本长时序机器人导航开辟了新的可能,为后续将形式化方法与视觉语言模型相结合的研究提供了重要参考。未来,该团队计划将ViTL扩展到更复杂的多机器人协作场景,并探索如何进一步提高模型的鲁棒性和泛化能力。