AI News HubLIVE
站内改写1 分钟阅读

Foresight:基于迭代推理的关键导航线索识别方法

本文提出Foresight框架,通过微调视觉语言模型在测试时迭代推演与修正运动规划,实现稀疏语言指令下的无地图导航。该方法利用人类反馈学习奖励模型并强化学习后训练,在真实环境中任务成功率提升37%,干预次数减少52%。

来源arXiv Robotics作者: Arthur Zhang, Carl Qi, Donne Su, Xiangyun Meng, Amy Zhang, Joydeep Biswas

在开放世界无地图导航任务中,机器人需要仅凭稀疏的语言指令理解目标并推断环境线索。例如,当目的地被遮挡时,机器人必须解读斜坡、标志或绕行路线等线索来确定行进方向。然而,现有方法通常依赖于已知的导航因子和封闭的类别集合,或者在运动规划之前确定线索,从而忽略了与规划动态相关的线索。为此,德克萨斯大学奥斯汀分校的研究团队提出了Foresight框架,利用预训练的视觉语言模型(VLM)在测试时进行迭代推理。该框架的核心是让经过微调的VLM交替执行两个步骤:首先根据当前视觉场景和语言目标提出一个图像空间中的运动规划,然后对该规划进行批评,评估其合理性。后续规划会基于之前的批评结果进行调整,从而在执行前不断优化运动轨迹。为了将规划批评与修正与开放式的行为偏好对齐,团队从人类反馈中学习一个奖励模型,并通过强化学习在规划-批评循环中对VLM进行后训练。在离线评估和六个真实世界环境的测试中,Foresight相较于最先进的测试时推理方法和基础模型基线,平均任务成功率提高了37%,每次任务中的人工干预次数减少了52%。该系统能够在Jetson AGX Orin上实时运行,展示了实际部署的潜力。研究团队表示,他们将公开代码、数据和训练细节,以促进未来在机器人运动修正方面的测试时推理研究。更多信息可在项目网站https://amrl.cs.utexas.edu/foresight获取。