AI News HubLIVE
站内改写1 分钟阅读

将接地3D点直接注入动作头解锁空间与任务泛化

该方法通过将3D点表示直接注入视觉-语言-动作(VLA)模型的动作头,大幅提升了空间和任务泛化能力,仅使用一个轻量级的两层MLP模块,无需修改VLA骨干网络。在LIBERO-PRO基准测试中,GR00T-N1.6的成功率在任务扰动下从31.2%提升至77.5%,在位置扰动下从28.1%提升至60.2%。

来源arXiv Robotics作者: Shiang-Feng Tsai, Jin-Cheng Jhang, Yen-Ling Tai, Jia-Hong Lai, Shih-Yun Wong, KangTung-Hsu, Yi-Ting Chen

视觉-语言-动作(VLA)模型通过大规模视觉-语言预训练实现了灵活的机器人操作,但在测试时,当物体位置与训练时不同(空间泛化)或同一场景配合不同的语言指令(任务泛化)时,这些模型往往表现脆弱。现有的方法通常通过2D像素坐标等空间感知信息来增强策略,但研究表明,语言或视觉提示的表征方式并不能充分解决这些局限性。相反,研究人员发现,利用基于3D点的表征并将其直接馈送到动作头可以带来显著改进——这表明接地信号如何表示并注入VLA才是真正的关键。为此,他们提出了一种轻量级、与模型无关的模块,该模块将接地信号表示为3D点,计算其与夹爪的相对位移,并通过自适应层归一化将生成的空间嵌入直接注入动作头。整个模块仅由两层MLP组成,无需对VLA骨干网络或预训练流程进行任何更改。在LIBERO-PRO基准测试上,该方法使GR00T-N1.6在任务扰动下的平均成功率从31.2%提高到77.5%,在位置扰动下从28.1%提高到60.2%,分别提升了46.3和32.1个百分点。类似的提升也在π0.5模型上得到验证,表明该机制与骨干网络无关。这些结果支持了核心发现:借助提升到3D的足够接地,将其直接注入动作头即可解锁VLA的空间和任务泛化能力,而这一切仅需在预训练骨干网络之上添加一个轻量级模块即可实现。该工作为未来机器人操作中的泛化问题提供了新的思路,尤其是在复杂环境中的自适应能力。