2026-06-29 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-29 16:20 UTC+8

将接地3D点直接注入动作头解锁空间与任务泛化

该方法通过将3D点表示直接注入视觉-语言-动作（VLA）模型的动作头，大幅提升了空间和任务泛化能力，仅使用一个轻量级的两层MLP模块，无需修改VLA骨干网络。在LIBERO-PRO基准测试中，GR00T-N1.6的成功率在任务扰动下从31.2%提升至77.5%，在位置扰动下从28.1%提升至60.2%。

来源arXiv Robotics作者: Shiang-Feng Tsai, Jin-Cheng Jhang, Yen-Ling Tai, Jia-Hong Lai, Shih-Yun Wong, KangTung-Hsu, Yi-Ting Chen

视觉-语言-动作（VLA）模型通过大规模视觉-语言预训练实现了灵活的机器人操作，但在测试时，当物体位置与训练时不同（空间泛化）或同一场景配合不同的语言指令（任务泛化）时，这些模型往往表现脆弱。现有的方法通常通过2D像素坐标等空间感知信息来增强策略，但研究表明，语言或视觉提示的表征方式并不能充分解决这些局限性。相反，研究人员发现，利用基于3D点的表征并将其直接馈送到动作头可以带来显著改进——这表明接地信号如何表示并注入VLA才是真正的关键。为此，他们提出了一种轻量级、与模型无关的模块，该模块将接地信号表示为3D点，计算其与夹爪的相对位移，并通过自适应层归一化将生成的空间嵌入直接注入动作头。整个模块仅由两层MLP组成，无需对VLA骨干网络或预训练流程进行任何更改。在LIBERO-PRO基准测试上，该方法使GR00T-N1.6在任务扰动下的平均成功率从31.2%提高到77.5%，在位置扰动下从28.1%提高到60.2%，分别提升了46.3和32.1个百分点。类似的提升也在π0.5模型上得到验证，表明该机制与骨干网络无关。这些结果支持了核心发现：借助提升到3D的足够接地，将其直接注入动作头即可解锁VLA的空间和任务泛化能力，而这一切仅需在预训练骨干网络之上添加一个轻量级模块即可实现。该工作为未来机器人操作中的泛化问题提供了新的思路，尤其是在复杂环境中的自适应能力。