AI News HubLIVE
站内改写

$\pi_0$-EqM:閉環視覺-語言-動作控制的均衡匹配

研究人員提出π0-EqM,用均衡匹配解碼器替換π0中的流匹配專家,在相同計算預算下顯著提升機器人操作成功率。實驗表明,在19個任務上平均成功率從40.4%提升至50.2%,並發現任務相關的殘差與成功率之間的非單調關係,稱為“平穩性-可執行性差距”。該方法引入能量視角,為跨任務和跨本體的組合動作生成提供新思路。

文章情報

工程師進階

要點

  • π0-EqM將流匹配解碼器替換為均衡匹配,不改動上游VLA架構。
  • 在300步預算下,RoboTwin平均成功率提升近10個百分點,LIBERO-10達87.0%。
  • 發現任務相關的“平穩性-可執行性差距”,表明推理深度是策略設計的一部分。
  • 提出基於能量的VLA視角,有助於未來可組合動作生成。

為甚麼重要

這條新聞值得關注,因為π0-EqM將流匹配解碼器替換為均衡匹配,不改動上游VLA架構。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

近日,由Huanming Liu等人提交至arXiv的論文(arXiv:2605.23128)提出了π0-EqM,一種面向閉環視覺-語言-動作(VLA)控制的均衡匹配方法。VLA模型當前已成為機器人操作的主流範式,其強大的任務泛化能力備受關注。然而,大多數生成式流匹配動作解碼器在推理時使用固定的採樣步數,這限制了根據狀態自適應計算的能力,也無法在控制週期之間實現時間上的重利用。π0-EqM的核心創新在於將基礎模型π0中的流匹配專家替換為均衡匹配(Equilibrium Matching,簡稱EqM)解碼器,同時保持上游VLA多模態模型完全不變。EqM通過迭代優化能量函數來生成動作,使得每個控制週期可以根據當前狀態動態調整推理深度,從而更高效地分配計算資源。

在實驗方面,研究人員在RoboTwin和LIBERO兩個基準上進行了評估。在匹配的300步計算預算下,π0-EqM在19個任務上將RoboTwin的平均成功率從40.4%提升至50.2%,提升幅度接近10個百分點。在LIBERO基準上,該方法同樣具有競爭力,尤其是在LIBERO-10任務中達到了87.0%的領先結果。此外,通過閾值掃描,研究人員發現殘差(residual)與成功率之間存在一種任務依賴的非單調關係,他們將這一現象命名為“平穩性-可執行性差距”(stationarity–executability gap)。這一發現表明,在迭代式VLA控制中,推理深度本身已成為策略設計的重要組成部分,而不僅僅是需要調節的超參數。

該研究還引入了基於能量的VLA視角,為理解VLA控制提供了新的理論框架。這一視角有望指導未來跨任務、跨本體的可組合動作生成研究,使機器人能夠更加靈活地適應多樣化的環境和任務。論文為預印本,共5頁,包含3張圖表,代碼和數據已公開。這一工作對機器人操作領域具有重要參考價值,可能影響未來的模型設計、推理效率優化以及評估基準的制定。