μ₀:一种可扩展的3D交互轨迹世界模型
本文介绍μ₀,一种基于3D轨迹的可扩展世界模型,通过预测物体、工具、手等交互点的平滑3D轨迹,避免了像素重建和动作标签依赖。该系统利用TraceExtract自动从视频中提取3D监督信号,结合视觉-语言骨干网络和轨迹专家模块进行预训练。实验表明,μ₀在2D和3D轨迹预测上优于基线方法,且冻结后的μ₀可与动作专家结合用于下游机器人任务,性能媲美使用动作监督的VLA模型。
来自韩国科学技术院(KAIST)等机构的研究人员提出了μ₀,一种基于3D交互轨迹的可扩展世界模型,旨在解决机器人学习中的可扩展性问题。传统方法要么依赖像素级视频预测,消耗大量计算资源重建外观细节,要么需要具身特定的动作标签,这严重限制了模型的泛化能力。μ₀另辟蹊径,通过预测交互点(如物体、工具、手以及接触区域)的3D轨迹,建立了一种紧凑且与形态无关的运动接口,从而避免了上述两种方法的弊端。
为了从海量的无标签视频中学习,研究团队开发了TraceExtract系统。该系统能够自动提取3D监督信号:首先从视频帧中选取关键点,然后构建全局对齐的轨迹,最后将运动片段与分层语言描述相关联。这些自动生成的监督数据用于预训练μ₀。在预训练阶段,μ₀结合了预训练的视觉-语言骨干网络和模块化的轨迹专家模块。轨迹专家将每个查询表示为B样条控制点,并预测未来的轨迹点。
实验结果表明,μ₀在2D和3D轨迹预测任务上均优于现有的基线方法,包括专门的轨迹预测模型和基于token化的视觉语言模型(VLM)变体。更令人瞩目的是,由于μ₀在预训练后可以冻结且保持可复用性,它能够与下游的动作专家模型配对,用于具体机器人形态的操控策略。尽管μ₀的预训练阶段完全没有使用任何动作标签,基于其轨迹条件学习的策略在多个操控任务上达到了与使用动作监督的视觉-语言-动作(VLA)模型(如π₀)竞争的性能。这充分验证了3D轨迹作为一种跨形态操控的可扩展且可迁移的表示。
该研究为机器人学习提供了一种新的范式:通过预测抽象的交互轨迹而非具体的动作,实现更高效的知识迁移和模型复用。未来,μ₀有望与更多模态的数据结合,进一步提升机器人对复杂环境的理解能力。该论文已被收录于arXiv(编号2606.13769),相关代码和模型将陆续开源。