2026-05-25 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

$\pi_0$-EqM：闭环视觉-语言-动作控制的均衡匹配

研究人员提出π0-EqM，用均衡匹配解码器替换π0中的流匹配专家，在相同计算预算下显著提升机器人操作成功率。实验表明，在19个任务上平均成功率从40.4%提升至50.2%，并发现任务相关的残差与成功率之间的非单调关系，称为“平稳性-可执行性差距”。该方法引入能量视角，为跨任务和跨本体的组合动作生成提供新思路。

来源arXiv Robotics作者: Huanming Liu, Congsheng Xu, Jianmin Ji, Yao Mu

近日，由Huanming Liu等人提交至arXiv的论文（arXiv:2605.23128）提出了π0-EqM，一种面向闭环视觉-语言-动作（VLA）控制的均衡匹配方法。VLA模型当前已成为机器人操作的主流范式，其强大的任务泛化能力备受关注。然而，大多数生成式流匹配动作解码器在推理时使用固定的采样步数，这限制了根据状态自适应计算的能力，也无法在控制周期之间实现时间上的重利用。π0-EqM的核心创新在于将基础模型π0中的流匹配专家替换为均衡匹配（Equilibrium Matching，简称EqM）解码器，同时保持上游VLA多模态模型完全不变。EqM通过迭代优化能量函数来生成动作，使得每个控制周期可以根据当前状态动态调整推理深度，从而更高效地分配计算资源。

在实验方面，研究人员在RoboTwin和LIBERO两个基准上进行了评估。在匹配的300步计算预算下，π0-EqM在19个任务上将RoboTwin的平均成功率从40.4%提升至50.2%，提升幅度接近10个百分点。在LIBERO基准上，该方法同样具有竞争力，尤其是在LIBERO-10任务中达到了87.0%的领先结果。此外，通过阈值扫描，研究人员发现残差（residual）与成功率之间存在一种任务依赖的非单调关系，他们将这一现象命名为“平稳性-可执行性差距”（stationarity–executability gap）。这一发现表明，在迭代式VLA控制中，推理深度本身已成为策略设计的重要组成部分，而不仅仅是需要调节的超参数。

该研究还引入了基于能量的VLA视角，为理解VLA控制提供了新的理论框架。这一视角有望指导未来跨任务、跨本体的可组合动作生成研究，使机器人能够更加灵活地适应多样化的环境和任务。论文为预印本，共5页，包含3张图表，代码和数据已公开。这一工作对机器人操作领域具有重要参考价值，可能影响未来的模型设计、推理效率优化以及评估基准的制定。