AI News HubLIVE
站内改写1 分钟阅读

RGB:强化学习引导的全身MPPI人形机器人控制

RGB框架将预训练的强化学习策略作为采样先验,结合模型预测路径积分(MPPI)在线优化,无需重新训练即可实现人形机器人的全身鲁棒控制。在Unitree G1仿真中达到280Hz控制率,任务精度显著提升。

来源arXiv Robotics作者: Yunsoo Seo, Sol Choi, Euncheol Im, Myo Taeg Lim, Yisoo Lee

人形机器人需要在复杂接触环境中实现既鲁棒又精确的全身控制。深度强化学习(RL)虽然能够提供稳健的稳定性,但其行为与训练目标和命令接口紧密耦合,添加新的反馈目标通常需要重新训练整个策略。为了解决这一难题,韩国科学技术院(KAIST)等机构的研究人员提出了RGB(RL Guided Whole-Body MPPI)框架,这是一种即插即用的反馈控制器,可部署在预训练的RL策略之上。

RGB的核心创新在于,不将RL策略作为最终控制器,而是将其作为采样先验,用于引导模型预测路径积分(MPPI)的滚动优化趋向于动力学可行的行为。任务目标通过模块化的MPPI成本项指定,MPPI通过在线连续校正RL先验来满足这些目标,而无需重新训练策略。这种设计使得RGB能够灵活地适应新任务,只需调整成本函数即可,极大地增强了控制器的通用性和可扩展性。

在MuJoCo仿真环境中,研究团队对Unitree G1人形机器人(29个自由度)进行了大量实验验证。实验结果显示,RGB实现了稳定的高速控制,平均控制频率达到280赫兹,这对于实时控制至关重要。与纯RL基线相比,RGB在相同命令接口下显著提升了任务级精度——具体表现为纠正了直线行走时的系统性漂移,并成功跟踪了通过成本函数施加的额外全身参考信号,例如手臂姿态和躯干方向等。

研究人员指出,RGB框架特别适用于需要高精度和鲁棒性的场合,如工业操作、灾难救援或家庭服务等。由于不需要重新训练策略,RGB可以快速适应新任务,降低了部署成本。此外,RGB的模块化设计允许研究人员和工程师根据具体需求定制成本项,进一步扩展其应用范围。该研究论文已提交至arXiv,并附带了完整的视频演示,展示了RGB在不同任务场景下的卓越性能。

RGB:强化学习引导的全身MPPI人形机器人控制 | AI News Hub