$\pi_0$-EqM:闭环视觉-语言-动作控制的均衡匹配
研究人员提出π0-EqM,用均衡匹配解码器替换π0中的流匹配专家,在相同计算预算下显著提升机器人操作成功率。实验表明,在19个任务上平均成功率从40.4%提升至50.2%,并发现任务相关的残差与成功率之间的非单调关系,称为“平稳性-可执行性差距”。该方法引入能量视角,为跨任务和跨本体的组合动作生成提供新思路。
文章情报
要点
- π0-EqM将流匹配解码器替换为均衡匹配,不改动上游VLA架构。
- 在300步预算下,RoboTwin平均成功率提升近10个百分点,LIBERO-10达87.0%。
- 发现任务相关的“平稳性-可执行性差距”,表明推理深度是策略设计的一部分。
- 提出基于能量的VLA视角,有助于未来可组合动作生成。
为什么重要
这条新闻值得关注,因为π0-EqM将流匹配解码器替换为均衡匹配,不改动上游VLA架构。
技术影响
可能影响模型选型、推理成本、产品能力和评测基准。
近日,由Huanming Liu等人提交至arXiv的论文(arXiv:2605.23128)提出了π0-EqM,一种面向闭环视觉-语言-动作(VLA)控制的均衡匹配方法。VLA模型当前已成为机器人操作的主流范式,其强大的任务泛化能力备受关注。然而,大多数生成式流匹配动作解码器在推理时使用固定的采样步数,这限制了根据状态自适应计算的能力,也无法在控制周期之间实现时间上的重利用。π0-EqM的核心创新在于将基础模型π0中的流匹配专家替换为均衡匹配(Equilibrium Matching,简称EqM)解码器,同时保持上游VLA多模态模型完全不变。EqM通过迭代优化能量函数来生成动作,使得每个控制周期可以根据当前状态动态调整推理深度,从而更高效地分配计算资源。
在实验方面,研究人员在RoboTwin和LIBERO两个基准上进行了评估。在匹配的300步计算预算下,π0-EqM在19个任务上将RoboTwin的平均成功率从40.4%提升至50.2%,提升幅度接近10个百分点。在LIBERO基准上,该方法同样具有竞争力,尤其是在LIBERO-10任务中达到了87.0%的领先结果。此外,通过阈值扫描,研究人员发现残差(residual)与成功率之间存在一种任务依赖的非单调关系,他们将这一现象命名为“平稳性-可执行性差距”(stationarity–executability gap)。这一发现表明,在迭代式VLA控制中,推理深度本身已成为策略设计的重要组成部分,而不仅仅是需要调节的超参数。
该研究还引入了基于能量的VLA视角,为理解VLA控制提供了新的理论框架。这一视角有望指导未来跨任务、跨本体的可组合动作生成研究,使机器人能够更加灵活地适应多样化的环境和任务。论文为预印本,共5页,包含3张图表,代码和数据已公开。这一工作对机器人操作领域具有重要参考价值,可能影响未来的模型设计、推理效率优化以及评估基准的制定。