2026-06-12站内改写1 分钟阅读更新: 2026-06-12

从模仿到对齐：面向长距离人行道导航的人类偏好流策略

本文提出FlowPilot，一种仅使用单目RGB摄像头的无地图长距离人行道导航策略。通过锚点流匹配进行预训练，并引入人在回路中的偏好学习，提升了社会合规性和反事实推理能力。仿真实验中成功率达42%，路线完成率66%，真实世界实验中干预率降低40.0%，非干预率降低52.1%。

来源arXiv Robotics作者: Honglin He, Zhizheng Liu, Yukai Ma, Bolei Zhou

FlowPilot是一项针对长距离人行道导航的先进策略，由研究团队提出并发表于arXiv。该工作旨在解决微型移动应用（如机器人送餐和辅助电动轮椅）中的关键挑战。与道路自动驾驶不同，人行道导航需要精确操控，应对不可预测的地形和行人，且仅依赖轻量级感知设备，例如单目RGB摄像头。

传统模仿学习虽然实用，但存在复合误差、缺乏社会合规性以及反事实推理能力不足等问题。为此，FlowPilot引入了锚点流匹配作为动作表示，利用大规模机器人车队数据进行策略预训练，从而捕捉人行道导航行为的多样且复杂的多模态分布。为了弥合模仿与对齐之间的差距，研究团队进一步设计了人在回路中的偏好学习方案，仅需少量人工干预数据即可调优策略，显著增强了模型的反事实推理和社会合规性。

实验评估在多个人行道环境中进行，包括仿真和真实世界测试。仿真结果显示，FlowPilot取得了42%的成功率和66%的路线完成率。在真实世界实验中，经过偏好学习优化的FlowPilot-HP相比基础模型，干预率降低了40.0%，非干预率降低了52.1%，充分证明了其在鲁棒性和社会合规性方面的提升。这项研究为微型移动机器人的自主导航提供了新的思路，尤其是如何将大规模模仿学习与人类偏好对齐相结合。未来的工作可以进一步优化锚点流匹配的效率，并探索在更复杂场景下的应用。