2026-06-19站内改写2 分鐘閱讀更新: 2026-06-19

遊戲化具身機器人學習

本文提出一種遊戲化的機器人學習方法，讓機器人透過自我導向的玩耍持續學習技能，並構建可複用的程式碼技能庫。引入RATs框架，在玩耍階段自主探索、執行、驗證和固化技能。實驗表明，該方法在LIBERO-PRO和MolmoSpaces上將下游任務成功率分別提升20.6和17.0個百分點，且學到的技能可遷移至其他Code-as-Policy代理，無需微調模型。

來源arXiv Robotics作者: Junyi Zhang, Jiaxin Ge, Hanjun Yoo, Letian Fu, Zihan Yang, Yaowei Liu, Raj Saravanan, Shaofeng Yin, Justin Yu, Dantong Niu, Zirui Wang, Roei Herzig, Ken Goldberg, Yutong Bai, David M. Chan, Ion Stoica, Angjoo Kanazawa, Jiahui Lei, Haiwen Feng, Trevor Darrell

當前，能夠編寫可執行程式碼策略（Code-as-Policy）的機器人系統已經能夠觀察反饋並在多次嘗試中修正行為。然而，這些系統本質上是任務驅動的：只有在接收到明確指令後，它們才會學習可重用的技能。這種模式限制了機器人在未知環境中自主適應和積累知識的能力。

為了解決這一問題，研究人員提出了“遊戲化具身機器人學習”（Playful Agentic Robot Learning）方法。在這項研究中，一個具身編碼代理將自我導向的玩耍作為下游任務到來之前的持續技能學習階段。核心貢獻是引入了RATs（Robotics Agent Teams）框架，專門設計用於在玩耍階段獲取技能。

RATs的工作流程如下：在玩耍過程中，RATs會自主提出新穎且可學習的探索任務，規劃並執行機器人程式碼策略，即時驗證中間進展，診斷失敗原因，並利用密集的步驟級反饋進行重試。當一次執行成功後，RATs會將其提煉並儲存到一個持久的程式碼技能庫中。在測試階段，代理可以從這個凍結的技能庫中檢索並重用相關技能，以幫助解決新的任務。

研究者在LIBERO-PRO和MolmoSpaces兩個基準平臺上進行了實驗。結果顯示，經過玩耍學習的技能顯著提升了保留的下游任務表現。與無玩耍和隨機玩耍的基線方法相比，RATs在LIBERO-PRO和MolmoSpaces上分別比CaP-Agent0高出20.6和17.0個百分點。此外，這些學到的技能還可以直接插入其他推理時的Code-as-Policy代理中，只需將相關技能檢索到上下文中，無需對基礎模型進行微調。在RoboSuite和真實世界遷移測試中，這種遷移方法分別帶來了8.9和8.8個百分點的效能提升。

這項研究表明，透過引入遊戲化的持續學習機制，機器人可以更加自主和高效地積累技能，從而在未知任務中表現更佳。未來，該方法有望應用於更復雜的機器人場景，推動具身智慧的發展。

值得注意的是，該方法的成功關鍵在於玩耍階段設計的RATs框架，它不僅能夠自主生成探索任務，還能透過密集反饋進行自我改進。相比於傳統的監督學習或強化學習方法，這種基於自我驅動的探索機制大大減少了對人工標註和預設任務的依賴。此外，技能的可遷移性意味著同一個技能庫可以服務於多種不同的機器人平臺和任務設定，這為實現通用機器人智慧提供了新的可能。研究團隊已經在專案頁面上公開了相關程式碼和演示，以便其他研究者復現和進一步探索。