2026-05-25 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

$\pi_0$-EqM：閉環視覺-語言-動作控制的均衡匹配

研究人員提出π0-EqM，用均衡匹配解碼器替換π0中的流匹配專家，在相同計算預算下顯著提升機器人操作成功率。實驗表明，在19個任務上平均成功率從40.4%提升至50.2%，並發現任務相關的殘差與成功率之間的非單調關係，稱為“平穩性-可執行性差距”。該方法引入能量視角，為跨任務和跨本體的組合動作生成提供新思路。

來源arXiv Robotics作者: Huanming Liu, Congsheng Xu, Jianmin Ji, Yao Mu

近日，由Huanming Liu等人提交至arXiv的論文（arXiv:2605.23128）提出了π0-EqM，一種面向閉環視覺-語言-動作（VLA）控制的均衡匹配方法。VLA模型當前已成為機器人操作的主流範式，其強大的任務泛化能力備受關注。然而，大多數生成式流匹配動作解碼器在推理時使用固定的採樣步數，這限制了根據狀態自適應計算的能力，也無法在控制週期之間實現時間上的重利用。π0-EqM的核心創新在於將基礎模型π0中的流匹配專家替換為均衡匹配（Equilibrium Matching，簡稱EqM）解碼器，同時保持上游VLA多模態模型完全不變。EqM通過迭代優化能量函數來生成動作，使得每個控制週期可以根據當前狀態動態調整推理深度，從而更高效地分配計算資源。

在實驗方面，研究人員在RoboTwin和LIBERO兩個基準上進行了評估。在匹配的300步計算預算下，π0-EqM在19個任務上將RoboTwin的平均成功率從40.4%提升至50.2%，提升幅度接近10個百分點。在LIBERO基準上，該方法同樣具有競爭力，尤其是在LIBERO-10任務中達到了87.0%的領先結果。此外，通過閾值掃描，研究人員發現殘差（residual）與成功率之間存在一種任務依賴的非單調關係，他們將這一現象命名為“平穩性-可執行性差距”（stationarity–executability gap）。這一發現表明，在迭代式VLA控制中，推理深度本身已成為策略設計的重要組成部分，而不僅僅是需要調節的超參數。

該研究還引入了基於能量的VLA視角，為理解VLA控制提供了新的理論框架。這一視角有望指導未來跨任務、跨本體的可組合動作生成研究，使機器人能夠更加靈活地適應多樣化的環境和任務。論文為預印本，共5頁，包含3張圖表，代碼和數據已公開。這一工作對機器人操作領域具有重要參考價值，可能影響未來的模型設計、推理效率優化以及評估基準的制定。