VEGA:利用野外自我中心视频和几何轨迹监督学习导航视觉-语言-行动模型
VEGA是一种从无标签自我中心导航视频中训练导航视觉-语言-行动(VLA)模型的方法。通过重建单目视频的场景几何并生成避障轨迹,VEGA将几何感知规划蒸馏到纯视觉策略中。VEGA-Bench基准包含25万场景和约500万导航目标,实验显示VEGA在减少碰撞和提升障碍物规避方面显著优于基线。
随着机器人导航技术的发展,从大量未标注的自拍视频中学习导航策略成为一个重要方向。VEGA方法正是为了解决这一问题而提出的,它利用互联网上丰富的自我中心视频来训练视觉-语言-行动(VLA)模型。这些视频捕捉了真实世界中杂乱的环境、近距离的障碍物以及人类自然的运动轨迹,但缺乏机器人坐标系下的明确导航目标和避障轨迹。VEGA的核心创新在于从单目视频中重建局部场景几何结构,然后根据重建的几何信息采样导航目标(以文本、图像或空间路径点表示),并生成避障轨迹。生成的轨迹分布随后用于训练基于流匹配的VLA导航策略。通过在训练阶段仅使用几何信息,VEGA成功地将避障规划能力蒸馏到纯视觉策略中,实现了无需繁琐标注的高效学习。
为了全面评估VLA模型的导航性能,研究团队还推出了VEGA-Bench基准测试。该基准包含25万个场景和约500万个导航目标,每个目标都配有详细的场景几何信息,专门用于评估目标进展、碰撞避免和障碍物规避能力。实验结果显示,在VEGA-Bench上,VEGA在保持竞争力目标进展的同时,碰撞减少了33.0%,障碍物规避提升了17.9%。在真实世界的试验中,VEGA的表现更为惊人:成功率提升至少150%,碰撞减少至少66.7%,障碍物规避提升至少60.0%。这些数据充分证明了基于视频几何监督的方法在训练避障导航VLA模型方面的可扩展性和有效性。
VEGA方法的意义不仅在于其性能卓越,更在于它开辟了一条利用海量无标注视频数据训练机器人导航模型的新路径。通过几何信息的桥梁作用,VEGA将自然场景中的视觉观察转化为可学习的导航策略,极大地降低了对人工标注的依赖。研究团队表示,代码和基准测试将在论文公开发表时一并发布,这将进一步推动导航VLA领域的研究和应用。