VoLo:面向开放词汇长程操控的物理编排器
本文提出VoLoAgent,一种利用视觉语言模型(VLM)编排多种机器人能力的系统,用于开放词汇长程操控任务。该系统将机器人动作视为可中断的工具,实现实时规划、监控和故障恢复。同时引入RoboVoLo基准测试,实验表明VoLoAgent显著优于单一VLA/VLM或基于工具的系统。
来源arXiv Robotics作者: Siyi Chen, Hugo Hadfield, Alex Zook, Mikaela Angelina Uy, Chan Hee Song, Erwin Coumans, Xuning Yang, Faisal Ladhak, Qing Qu, Stan Birchfield, Jonathan Tremblay, Valts Blukis
在机器人领域,开放词汇长程操控(Open-vocabulary long-horizon manipulation)要求机器人能够理解灵活指令,在复杂多对象场景中自适应地规划、执行、监控并从失败中恢复。针对这一挑战,来自多位研究者的团队提出了VoLo系统,其核心是VoLoAgent——一种将视觉语言模型(VLM)作为物理编排器的智能体。
与虚拟AI智能体不同,物理世界中的决策、动作和工具调用的时机至关重要,因为世界不会为了推理而暂停。VoLoAgent通过一个闭环智能体循环来解决这一问题,其中VLM将异质的机器人能力作为可中断的工具进行编排。具体而言,VoLoAgent将一个视觉语言动作模型(VLA)或基于动作的模型(WAM)视为一个可以在执行过程中被实时引导的工具,同时结合视觉模型和动作原语进行规划、监控和恢复。
为了评估这种长程操控能力,研究团队还发布了RoboVoLo基准测试。这是一个高保真度的基准,用于测试开放词汇长程操控任务,涵盖常识推理、内存/状态跟踪、复杂引用以及世界知识等多个维度。该基准不仅提供任务级成功率,还包含故障模式诊断功能。
实验结果表明,VoLoAgent在真实机器人实验中显著优于单一的VLA/VLM系统或基于工具的基线系统。项目页面提供了更多视频和代码细节。这项工作为机器人在非结构化环境中执行长时间序列的复杂操控任务提供了一种新的有效范式。