Physical Atari:一個穩健且易用的機器人即時強化學習平臺
研究人員構建了名為Robotroller的機器人,可操作Atari CX40+控制器,並開發了Atari Devbox裝置,在螢幕上渲染遊戲畫面和獎勵訊號。整個系統(Physical Atari)結合了現成攝像頭和臺式電腦,可用於研究物理世界中的強化學習演算法。系統設計注重穩健性(所有運動透過軸承實現,軟體高頻監控舵機狀態)和易用性(使用廉價現成元件和3D列印零件),總成本低於1000美元,可連續執行數週無機械故障。實驗驗證了強化學習演算法可直接在機器人上學習,並表明學習與部署之間的微小分佈偏移會顯著降低策略效能,凸顯了裝置端自適應的重要性。
Physical Atari是由研究人員開發的一個創新平臺,旨在為機器人即時強化學習提供穩健且易於使用的實驗環境。該平臺由兩個核心元件構成:Robotroller機器人和Atari Devbox。Robotroller能夠物理操作Atari CX40+遊戲控制器,而Atari Devbox則負責在螢幕上渲染來自Arcade Learning Environment的遊戲畫面和獎勵訊號。結合一個普通的攝像頭和一臺臺式計算機,整個系統便可用於在物理世界中研究和驗證強化學習演算法。
為了確保平臺的穩健性,Robotroller的機械設計採用了軸承來驅動所有運動部件,從而顯著減少了機械磨損。此外,研究人員還編寫了監控軟體,以高頻即時監測舵機的執行狀態,並在檢測到過載時及時介入,限制應力,防止損壞。這些設計使得系統能夠連續數週不間斷執行而無需任何機械維護。
在易用性方面,Physical Atari選用了市場上常見的廉價元件,並利用消費級3D印表機制造所需的定製零件。整套系統的搭建成本不到1000美元,大大降低了研究門檻。該平臺已被成功用於多周的強化學習實驗,期間未出現任何機械故障。
利用Physical Atari,研究人員驗證了強化學習演算法可以直接在真實機器人上進行學習。更重要的是,他們發現即使學習階段與部署階段之間存在微小的分佈偏移,也會導致策略效能的顯著下降。這一結果凸顯了在裝置端進行自適應調整對於實現優異機器人效能的關鍵作用。該論文已被RLC 2026會議接收,為機器人強化學習領域提供了一種低成本、高可靠性的研究工具。