2026-06-12站内改写1 分钟阅读更新: 2026-06-12

Sparse2Act：学习跨域机器人操作的动作对齐稀疏3D表示

Sparse2Act是一种新的预训练框架，利用任务空间末端执行器动作作为几何监督来对齐稀疏点云编码器的观察与动作。在LIBERO-10基准上达到86.9%的成功率，并成功跨域迁移至Meta-World-5（73.4%），真实世界实验中达到72.5%的成功率。

来源arXiv Robotics作者: Yu Guo, Chang Yu, Siyu Ma, Yunuo Chen, Yin Yang, Ying Nian Wu, Chenfanfu Jiang

由Yu Guo等六位作者提交的论文《Sparse2Act: Learning Action-Aligned Sparse 3D Representations for Cross-Domain Robot Manipulation》于2026年6月10日提交至arXiv。该论文提出了一种名为Sparse2Act的预训练框架，旨在解决机器人操作中稀疏3D编码器因依赖下游任务目标学习而导致的表示泛化性不足问题。传统方法中，稀疏3D编码器的表示与特定数据分布、策略架构和动作参数化紧密耦合，限制了其跨域和跨任务迁移能力。Sparse2Act通过观测-动作对齐框架，利用任务空间末端执行器动作作为几何监督信号，训练被掩码的稀疏3D令牌组织与观测配对的工作空间运动周围的场景特征。这种预训练方式使得下游策略可以复用编码器初始化，同时保留自身架构和动作空间，包括关节空间命令。

在实验部分，Sparse2Act在LIBERO-10基准测试中仅需500步微调即可达到86.9%的平均成功率，显著优于基线方法。更值得注意的是，相同的预训练编码器成功实现了从LIBERO到Meta-World的跨域迁移，在Meta-World-5基准上达到73.4%的平均成功率，证明了其强大的泛化能力。消融实验进一步揭示了性能提升的关键在于掩码动作对齐信号，并且该信号在不同解码器容量下均保持有效。此外，研究者还评估了模拟到现实（sim-to-real）的迁移效果：在仿真环境中预训练后，仅使用少量真实世界数据微调，Sparse2Act在四个典型操作任务上实现了72.5%的平均成功率，包括物体拾取和放置、开门等。这些结果表明，机器人动作可以为可复用的稀疏3D表示提供紧凑而有效的几何监督。Sparse2Act的提出不仅为基于3D表示的机器人操作提供了新的预训练范式，也为未来跨域和跨任务的学习研究奠定了基础。论文的分支主题包括机器人学（cs.RO），并提供了arXiv编号2606.12759供进一步参考。