2026-06-19站内改写1 分钟阅读更新: 2026-06-19

Physical Atari：一个稳健且易用的机器人实时强化学习平台

研究人员构建了名为Robotroller的机器人，可操作Atari CX40+控制器，并开发了Atari Devbox设备，在屏幕上渲染游戏画面和奖励信号。整个系统（Physical Atari）结合了现成摄像头和台式电脑，可用于研究物理世界中的强化学习算法。系统设计注重稳健性（所有运动通过轴承实现，软件高频监控舵机状态）和易用性（使用廉价现成组件和3D打印零件），总成本低于1000美元，可连续运行数周无机械故障。实验验证了强化学习算法可直接在机器人上学习，并表明学习与部署之间的微小分布偏移会显著降低策略性能，凸显了设备端自适应的重要性。

来源arXiv Robotics作者: Khurram Javed, Joseph Modayil, Gloria Kennickell, Richard S. Sutton, John Carmack

Physical Atari是由研究人员开发的一个创新平台，旨在为机器人实时强化学习提供稳健且易于使用的实验环境。该平台由两个核心组件构成：Robotroller机器人和Atari Devbox。Robotroller能够物理操作Atari CX40+游戏控制器，而Atari Devbox则负责在屏幕上渲染来自Arcade Learning Environment的游戏画面和奖励信号。结合一个普通的摄像头和一台台式计算机，整个系统便可用于在物理世界中研究和验证强化学习算法。

为了确保平台的稳健性，Robotroller的机械设计采用了轴承来驱动所有运动部件，从而显著减少了机械磨损。此外，研究人员还编写了监控软件，以高频实时监测舵机的运行状态，并在检测到过载时及时介入，限制应力，防止损坏。这些设计使得系统能够连续数周不间断运行而无需任何机械维护。

在易用性方面，Physical Atari选用了市场上常见的廉价组件，并利用消费级3D打印机制造所需的定制零件。整套系统的搭建成本不到1000美元，大大降低了研究门槛。该平台已被成功用于多周的强化学习实验，期间未出现任何机械故障。

利用Physical Atari，研究人员验证了强化学习算法可以直接在真实机器人上进行学习。更重要的是，他们发现即使学习阶段与部署阶段之间存在微小的分布偏移，也会导致策略性能的显著下降。这一结果凸显了在设备端进行自适应调整对于实现优异机器人性能的关键作用。该论文已被RLC 2026会议接收，为机器人强化学习领域提供了一种低成本、高可靠性的研究工具。