AI News HubLIVE
站内改写1 分钟阅读

从模仿到对齐:面向长距离人行道导航的人类偏好流策略

本文提出FlowPilot,一种仅使用单目RGB摄像头的无地图长距离人行道导航策略。通过锚点流匹配进行预训练,并引入人在回路中的偏好学习,提升了社会合规性和反事实推理能力。仿真实验中成功率达42%,路线完成率66%,真实世界实验中干预率降低40.0%,非干预率降低52.1%。

来源arXiv Robotics作者: Honglin He, Zhizheng Liu, Yukai Ma, Bolei Zhou

FlowPilot是一项针对长距离人行道导航的先进策略,由研究团队提出并发表于arXiv。该工作旨在解决微型移动应用(如机器人送餐和辅助电动轮椅)中的关键挑战。与道路自动驾驶不同,人行道导航需要精确操控,应对不可预测的地形和行人,且仅依赖轻量级感知设备,例如单目RGB摄像头。

传统模仿学习虽然实用,但存在复合误差、缺乏社会合规性以及反事实推理能力不足等问题。为此,FlowPilot引入了锚点流匹配作为动作表示,利用大规模机器人车队数据进行策略预训练,从而捕捉人行道导航行为的多样且复杂的多模态分布。为了弥合模仿与对齐之间的差距,研究团队进一步设计了人在回路中的偏好学习方案,仅需少量人工干预数据即可调优策略,显著增强了模型的反事实推理和社会合规性。

实验评估在多个人行道环境中进行,包括仿真和真实世界测试。仿真结果显示,FlowPilot取得了42%的成功率和66%的路线完成率。在真实世界实验中,经过偏好学习优化的FlowPilot-HP相比基础模型,干预率降低了40.0%,非干预率降低了52.1%,充分证明了其在鲁棒性和社会合规性方面的提升。这项研究为微型移动机器人的自主导航提供了新的思路,尤其是如何将大规模模仿学习与人类偏好对齐相结合。未来的工作可以进一步优化锚点流匹配的效率,并探索在更复杂场景下的应用。