DREAM-Chunk:基于潜在世界模型的反应式动作分块
DREAM-Chunk是一种测试时扩展方法,通过轻量级潜在世界模型增强基于分块的动作策略,无需微调策略本身。该方法在测试时采样多个候选动作分块,预测其潜在未来状态,并选择与实际状态最匹配的分块,从而提升在随机动力学下的鲁棒性。在Kinetix基准和多种机器人平台上验证了其有效性。
近年来,视觉-语言-动作(VLA)模型在机器人领域取得了显著进展,其中动作分块(action chunking)已成为一种常见的接口,允许低频策略推理驱动高频机器人执行。然而,一旦动作分块被提交,其开环执行在随机动力学、硬件执行误差和部分可观测性下可能变得脆弱。针对这一问题,来自多所机构的研究人员提出了一种名为DREAM-Chunk的测试时扩展方法,该方法通过引入轻量级潜在世界模型来增强现有的分块策略,而无需额外的策略微调。
DREAM-Chunk的核心思想是在测试时利用额外计算来覆盖多种可能的随机未来。具体而言,该方法首先从当前策略中采样多个候选动作分块,然后使用潜在世界模型对每个分块的执行结果进行滚动预测,从中选择预测状态与实际观测状态最匹配的分块,并执行该分块中的动作。通过这种方式,DREAM-Chunk能够在长时间跨度的分块执行过程中保持反应性,有效应对随机动力学带来的不确定性。
在实验中,研究团队首先在Kinetix基准上评估了DREAM-Chunk的性能。结果表明,随着动作噪声的增加,该方法显著提升了鲁棒性,并且受益于更大的候选样本量,尤其是在演示数据包含修正行为的情况下。此外,团队还在两个机器人平台上的四种操控任务中,结合两种不同的VLA策略进行了验证。在仿真和硬件实验中,DREAM-Chunk均显示出对随机动力学更强的鲁棒性,能够有效应对硬件误差和部分可观察性带来的挑战。
DREAM-Chunk的提出为动作分块策略的鲁棒性提升提供了一种轻量级且高效的解决方案。它不需要改变现有的策略训练流程,仅通过在测试阶段引入额外的计算资源即可实现显著的性能提升。这一方法有望在未来的机器人应用中发挥重要作用,特别是在需要高可靠性和适应性的场景中。研究团队已公开了相关代码和实验细节,以便其他研究者复现和进一步拓展。