基于随机解耦策略梯度的高效在线视觉强化学习方法
提出随机解耦策略梯度(SDPG)方法,一种轻量级视觉强化学习技术,可在单块NVIDIA RTX 4080 GPU上数小时内端到端训练多种视觉运动控制策略。SDPG通过轨迹rollout的随机扰动估计策略梯度,大幅减少批量渲染环境的数量以及计算和内存开销。在视觉MuJoCo基准测试中,SDPG在训练时间、内存使用和奖励方面一致优于基线方法。此外,引入了涵盖灵巧操作和挑战性运动的全新真实感视觉机器人基准测试,并在物理硬件上展示了有效的模拟到现实迁移。
文章情报
要点
- 提出SDPG方法,在单块RTX 4080 GPU上数小时内完成训练。
- 通过随机扰动估计策略梯度,显著降低计算和内存开销。
- 在视觉MuJoCo基准测试中优于现有方法。
- 引入新基准测试并成功实现模拟到现实的迁移。
为什么重要
这条新闻值得关注,因为提出SDPG方法,在单块RTX 4080 GPU上数小时内完成训练。
技术影响
可能影响 GPU、推理集群、算力成本和供应链规划。
研究人员提出了一种名为随机解耦策略梯度(SDPG)的新型视觉强化学习方法,该方法显著提升了机器人控制策略的训练效率。SDPG是一种轻量级算法,能够在单块NVIDIA RTX 4080 GPU上仅用数小时便端到端地训练出多样化的视觉运动控制策略,而传统方法通常需要数天甚至更长时间。这一突破得益于SDPG的核心创新:通过轨迹rollout的随机扰动来估计策略梯度。与传统的策略梯度方法不同,SDPG不需要在大量并行环境中进行完整的轨迹rollout来获得准确的梯度估计,而是利用随机扰动来近似梯度。这种设计将所需的环境数量降低了数个数量级,从而大幅削减了计算和内存开销。在视觉MuJoCo基准测试中,SDPG在训练时间、内存使用和最终奖励方面均一致优于包括PPO在内的基线方法。例如,在几个具有挑战性的视觉运动控制任务上,SDPG的训练速度比基线方法快数十倍,同时占用更少的内存,并最终获得更高的累积奖励。这些结果表明,SDPG为视觉强化学习领域提供了一种高效且实用的解决方案。为了促进未来研究,该团队还发布了一套全新的真实感视觉机器人基准测试,涵盖了灵巧操作(如物体抓取和精细装配)以及具有挑战性的运动任务(如复杂地形行走)。这些基准测试旨在更真实地模拟现实世界条件,填补了现有基准测试在视觉真实感和任务难度方面的空白。此外,研究者在物理硬件上进行了模拟到现实的迁移实验,验证了SDPG在真实机器人上同样高效有效。他们使用SDPG训练的策略直接部署到真实机器人上,无需任何微调,证明了该方法具有良好的泛化能力。论文发表于arXiv,代码和基准测试预计将开源,以推动视觉强化学习领域的进一步发展。这一工作不仅为机器人学习提供了更快的训练手段,还通过开源基准测试促进了社区研究,有望加速视觉强化学习在真实世界中的应用。