學習輔助:面向隱式人機協作的協作型VLA模型
本文展示了通過模仿學習端到端訓練的視覺-語言-動作(VLA)模型能夠支持協作操作。研究發現,動作分塊策略存在一個失敗模式——演示動作泄露,導致過早的輔助行為。提出了一種推理時轉向方法用於緩解錯誤。16名參與者的人機協作組裝任務實驗表明,轉向方法能夠實現更長的執行視野、更快的協作速度和更少的失敗。
人類與機器人協作(HRC)旨在結合兩者的互補優勢以提高任務效率。然而,許多現有的協作系統依賴於手工設計的流水線,限制了其對新任務的可擴展性和靈活性。本篇論文展示了通過模仿學習端到端訓練的視覺-語言-動作(VLA)模型能夠有效支持協作操作,並深入分析了影響實際性能的關鍵因素。研究者評估了兩種最先進的模型,並識別出在隱式人機協作中動作分塊策略的一個失敗模式:演示動作泄露。具體而言,動作塊可能跨越潛在的任務轉換邊界,導致機器人過早地執行輔助行為。例如,在工具遞送任務中,機器人可能會在人類尚未準備好時嘗試遞送工具。研究發現,這一問題隨着執行視野的延長而加劇,且在真實世界的協作VLA系統中普遍存在。為了解決這一問題,論文提出了一種推理時轉向方法。該方法在保留策略整體性能的同時,通過在線調整動作輸出來減輕錯誤的輔助動作,從而避免在任務過渡階段觸發過早的輔助行為。該轉向方法通過輕量級調整機制修正動作,無需重新訓練模型,易於集成到現有系統中。為了驗證轉向方法的有效性,研究者進行了包含16名參與者的用户研究,任務為長視野協作組裝。實驗結果顯示,轉向方法使機器人能夠支持更長的執行視野,同時有效減少了過早輔助行為,從而顯著提升了協作速度並降低了失敗率。與短視野策略相比,轉向方法表現出明顯優勢。這一工作為隱式人機協作提供了新的思路,表明端到端學習的VLA模型結合推理時轉向方法有望替代傳統手工設計,推動更靈活、高效的人機協作系統的發展。研究人員建議在未來工作中探索任務邊界檢測或自適應動作分塊策略,以進一步提升協作性能。