2026-06-19站内改写2 分钟阅读更新: 2026-06-19

游戏化具身机器人学习

本文提出一种游戏化的机器人学习方法，让机器人通过自我导向的玩耍持续学习技能，并构建可复用的代码技能库。引入RATs框架，在玩耍阶段自主探索、执行、验证和固化技能。实验表明，该方法在LIBERO-PRO和MolmoSpaces上将下游任务成功率分别提升20.6和17.0个百分点，且学到的技能可迁移至其他Code-as-Policy代理，无需微调模型。

来源arXiv Robotics作者: Junyi Zhang, Jiaxin Ge, Hanjun Yoo, Letian Fu, Zihan Yang, Yaowei Liu, Raj Saravanan, Shaofeng Yin, Justin Yu, Dantong Niu, Zirui Wang, Roei Herzig, Ken Goldberg, Yutong Bai, David M. Chan, Ion Stoica, Angjoo Kanazawa, Jiahui Lei, Haiwen Feng, Trevor Darrell

当前，能够编写可执行代码策略（Code-as-Policy）的机器人系统已经能够观察反馈并在多次尝试中修正行为。然而，这些系统本质上是任务驱动的：只有在接收到明确指令后，它们才会学习可重用的技能。这种模式限制了机器人在未知环境中自主适应和积累知识的能力。

为了解决这一问题，研究人员提出了“游戏化具身机器人学习”（Playful Agentic Robot Learning）方法。在这项研究中，一个具身编码代理将自我导向的玩耍作为下游任务到来之前的持续技能学习阶段。核心贡献是引入了RATs（Robotics Agent Teams）框架，专门设计用于在玩耍阶段获取技能。

RATs的工作流程如下：在玩耍过程中，RATs会自主提出新颖且可学习的探索任务，规划并执行机器人代码策略，实时验证中间进展，诊断失败原因，并利用密集的步骤级反馈进行重试。当一次执行成功后，RATs会将其提炼并存储到一个持久的代码技能库中。在测试阶段，代理可以从这个冻结的技能库中检索并重用相关技能，以帮助解决新的任务。

研究者在LIBERO-PRO和MolmoSpaces两个基准平台上进行了实验。结果显示，经过玩耍学习的技能显著提升了保留的下游任务表现。与无玩耍和随机玩耍的基线方法相比，RATs在LIBERO-PRO和MolmoSpaces上分别比CaP-Agent0高出20.6和17.0个百分点。此外，这些学到的技能还可以直接插入其他推理时的Code-as-Policy代理中，只需将相关技能检索到上下文中，无需对基础模型进行微调。在RoboSuite和真实世界迁移测试中，这种迁移方法分别带来了8.9和8.8个百分点的性能提升。

这项研究表明，通过引入游戏化的持续学习机制，机器人可以更加自主和高效地积累技能，从而在未知任务中表现更佳。未来，该方法有望应用于更复杂的机器人场景，推动具身智能的发展。

值得注意的是，该方法的成功关键在于玩耍阶段设计的RATs框架，它不仅能够自主生成探索任务，还能通过密集反馈进行自我改进。相比于传统的监督学习或强化学习方法，这种基于自我驱动的探索机制大大减少了对人工标注和预设任务的依赖。此外，技能的可迁移性意味着同一个技能库可以服务于多种不同的机器人平台和任务设置，这为实现通用机器人智能提供了新的可能。研究团队已经在项目页面上公开了相关代码和演示，以便其他研究者复现和进一步探索。