基於隨機解耦策略梯度的高效在線視覺強化學習方法
提出隨機解耦策略梯度(SDPG)方法,一種輕量級視覺強化學習技術,可在單塊NVIDIA RTX 4080 GPU上數小時內端到端訓練多種視覺運動控制策略。SDPG通過軌跡rollout的隨機擾動估計策略梯度,大幅減少批量渲染環境的數量以及計算和內存開銷。在視覺MuJoCo基準測試中,SDPG在訓練時間、內存使用和獎勵方面一致優於基線方法。此外,引入了涵蓋靈巧操作和挑戰性運動的全新真實感視覺機器人基準測試,並在物理硬件上展示了有效的模擬到現實遷移。
文章情報
要點
- 提出SDPG方法,在單塊RTX 4080 GPU上數小時內完成訓練。
- 通過隨機擾動估計策略梯度,顯著降低計算和內存開銷。
- 在視覺MuJoCo基準測試中優於現有方法。
- 引入新基準測試併成功實現模擬到現實的遷移。
為甚麼重要
這條新聞值得關注,因為提出SDPG方法,在單塊RTX 4080 GPU上數小時內完成訓練。
技術影響
可能影響 GPU、推理集羣、算力成本和供應鏈規劃。
研究人員提出了一種名為隨機解耦策略梯度(SDPG)的新型視覺強化學習方法,該方法顯著提升了機器人控制策略的訓練效率。SDPG是一種輕量級算法,能夠在單塊NVIDIA RTX 4080 GPU上僅用數小時便端到端地訓練出多樣化的視覺運動控制策略,而傳統方法通常需要數天甚至更長時間。這一突破得益於SDPG的核心創新:通過軌跡rollout的隨機擾動來估計策略梯度。與傳統的策略梯度方法不同,SDPG不需要在大量並行環境中進行完整的軌跡rollout來獲得準確的梯度估計,而是利用隨機擾動來近似梯度。這種設計將所需的環境數量降低了數個數量級,從而大幅削減了計算和內存開銷。在視覺MuJoCo基準測試中,SDPG在訓練時間、內存使用和最終獎勵方面均一致優於包括PPO在內的基線方法。例如,在幾個具有挑戰性的視覺運動控制任務上,SDPG的訓練速度比基線方法快數十倍,同時佔用更少的內存,並最終獲得更高的累積獎勵。這些結果表明,SDPG為視覺強化學習領域提供了一種高效且實用的解決方案。為了促進未來研究,該團隊還發布了一套全新的真實感視覺機器人基準測試,涵蓋了靈巧操作(如物體抓取和精細裝配)以及具有挑戰性的運動任務(如複雜地形行走)。這些基準測試旨在更真實地模擬現實世界條件,填補了現有基準測試在視覺真實感和任務難度方面的空白。此外,研究者在物理硬件上進行了模擬到現實的遷移實驗,驗證了SDPG在真實機器人上同樣高效有效。他們使用SDPG訓練的策略直接部署到真實機器人上,無需任何微調,證明了該方法具有良好的泛化能力。論文發表於arXiv,代碼和基準測試預計將開源,以推動視覺強化學習領域的進一步發展。這一工作不僅為機器人學習提供了更快的訓練手段,還通過開源基準測試促進了社區研究,有望加速視覺強化學習在真實世界中的應用。