SeeTraceAct: 跨体演示视频中的可见性感知潜在规划
本文提出SeeTraceAct,一种基于单次演示视频的视觉语言动作模型(VLA)框架,通过可见性感知的末端执行器轨迹预测实现精确空间定位。实验表明,该方法在RoboCasa-DC基准和真实世界任务中优于基线,将平均成功率提升12.5个百分点。
视觉语言动作模型(VLA)结合了视觉、语言和动作,是通用机器人策略的有力候选。然而,传统的VLA适应新任务需要海量的特定任务遥操作数据,这限制了其实际应用。为了缓解这一数据瓶颈,研究者提出了“一次性演示条件VLA”(one-shot demo-conditioned VLA),即策略仅需对一个新任务的单一演示视频进行条件化即可执行。尽管这种方法前景广阔,但现有端到端模型在执行需要精确定位小目标区域的任务时往往力不从心。
来自韩国科学技术院(KAIST)等机构的研究团队深入分析了这一局限性,并提出了一种名为SeeTraceAct的创新框架。该框架的核心思想是通过可见性感知的未来末端执行器轨迹预测来鼓励模型进行精确的空间定位。具体来说,SeeTraceAct在训练过程中不仅要求模型预测动作,还要求其预测未来的末端执行器轨迹,并利用可见性信息(即哪些部分是可见的)来引导模型关注关键区域。这种设计使得模型能够更好地理解演示视频中的空间关系,从而在未知环境中实现更准确的泛化。
为了验证SeeTraceAct的有效性并促进可重复研究,团队同时推出了RoboCasa-DC数据集。该数据集基于RoboCasa构建,增加了与人类演示视频配对的机器人任务数据,特别支持跨体演示场景——即机器人从人类演示中学习。在RoboCasa-DC的四个不同设置以及一个真实世界基准(使用Franka Panda机械臂)上的实验结果表明,SeeTraceAct在所有场景下均取得了最佳成功率,其中真实世界的平均成功率相比基线提升了12.5个百分点。
这一成果表明,通过引入可见性感知的潜在轨迹规划,可以在不增加数据采集成本的情况下显著提升演示条件VLA的性能。SeeTraceAct为低成本、高效率的机器人技能获取开辟了新路径,尤其适用于那些难以进行大规模遥操作的任务。论文及代码已公开在arXiv上,感兴趣的读者可以进一步查阅。