学习辅助:面向隐式人机协作的协作型VLA模型
本文展示了通过模仿学习端到端训练的视觉-语言-动作(VLA)模型能够支持协作操作。研究发现,动作分块策略存在一个失败模式——演示动作泄露,导致过早的辅助行为。提出了一种推理时转向方法用于缓解错误。16名参与者的人机协作组装任务实验表明,转向方法能够实现更长的执行视野、更快的协作速度和更少的失败。
人类与机器人协作(HRC)旨在结合两者的互补优势以提高任务效率。然而,许多现有的协作系统依赖于手工设计的流水线,限制了其对新任务的可扩展性和灵活性。本篇论文展示了通过模仿学习端到端训练的视觉-语言-动作(VLA)模型能够有效支持协作操作,并深入分析了影响实际性能的关键因素。研究者评估了两种最先进的模型,并识别出在隐式人机协作中动作分块策略的一个失败模式:演示动作泄露。具体而言,动作块可能跨越潜在的任务转换边界,导致机器人过早地执行辅助行为。例如,在工具递送任务中,机器人可能会在人类尚未准备好时尝试递送工具。研究发现,这一问题随着执行视野的延长而加剧,且在真实世界的协作VLA系统中普遍存在。为了解决这一问题,论文提出了一种推理时转向方法。该方法在保留策略整体性能的同时,通过在线调整动作输出来减轻错误的辅助动作,从而避免在任务过渡阶段触发过早的辅助行为。该转向方法通过轻量级调整机制修正动作,无需重新训练模型,易于集成到现有系统中。为了验证转向方法的有效性,研究者进行了包含16名参与者的用户研究,任务为长视野协作组装。实验结果显示,转向方法使机器人能够支持更长的执行视野,同时有效减少了过早辅助行为,从而显著提升了协作速度并降低了失败率。与短视野策略相比,转向方法表现出明显优势。这一工作为隐式人机协作提供了新的思路,表明端到端学习的VLA模型结合推理时转向方法有望替代传统手工设计,推动更灵活、高效的人机协作系统的发展。研究人员建议在未来工作中探索任务边界检测或自适应动作分块策略,以进一步提升协作性能。