2026-06-12站内改写1 分钟阅读更新: 2026-06-12

Foresight：基于迭代推理的关键导航线索识别方法

本文提出Foresight框架，通过微调视觉语言模型在测试时迭代推演与修正运动规划，实现稀疏语言指令下的无地图导航。该方法利用人类反馈学习奖励模型并强化学习后训练，在真实环境中任务成功率提升37%，干预次数减少52%。

来源arXiv Robotics作者: Arthur Zhang, Carl Qi, Donne Su, Xiangyun Meng, Amy Zhang, Joydeep Biswas

在开放世界无地图导航任务中，机器人需要仅凭稀疏的语言指令理解目标并推断环境线索。例如，当目的地被遮挡时，机器人必须解读斜坡、标志或绕行路线等线索来确定行进方向。然而，现有方法通常依赖于已知的导航因子和封闭的类别集合，或者在运动规划之前确定线索，从而忽略了与规划动态相关的线索。为此，德克萨斯大学奥斯汀分校的研究团队提出了Foresight框架，利用预训练的视觉语言模型（VLM）在测试时进行迭代推理。该框架的核心是让经过微调的VLM交替执行两个步骤：首先根据当前视觉场景和语言目标提出一个图像空间中的运动规划，然后对该规划进行批评，评估其合理性。后续规划会基于之前的批评结果进行调整，从而在执行前不断优化运动轨迹。为了将规划批评与修正与开放式的行为偏好对齐，团队从人类反馈中学习一个奖励模型，并通过强化学习在规划-批评循环中对VLM进行后训练。在离线评估和六个真实世界环境的测试中，Foresight相较于最先进的测试时推理方法和基础模型基线，平均任务成功率提高了37%，每次任务中的人工干预次数减少了52%。该系统能够在Jetson AGX Orin上实时运行，展示了实际部署的潜力。研究团队表示，他们将公开代码、数据和训练细节，以促进未来在机器人运动修正方面的测试时推理研究。更多信息可在项目网站https://amrl.cs.utexas.edu/foresight获取。