2026-06-25 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-25 16:06 UTC+8

RGB：强化学习引导的全身MPPI人形机器人控制

RGB框架将预训练的强化学习策略作为采样先验，结合模型预测路径积分（MPPI）在线优化，无需重新训练即可实现人形机器人的全身鲁棒控制。在Unitree G1仿真中达到280Hz控制率，任务精度显著提升。

来源arXiv Robotics作者: Yunsoo Seo, Sol Choi, Euncheol Im, Myo Taeg Lim, Yisoo Lee

人形机器人需要在复杂接触环境中实现既鲁棒又精确的全身控制。深度强化学习（RL）虽然能够提供稳健的稳定性，但其行为与训练目标和命令接口紧密耦合，添加新的反馈目标通常需要重新训练整个策略。为了解决这一难题，韩国科学技术院（KAIST）等机构的研究人员提出了RGB（RL Guided Whole-Body MPPI）框架，这是一种即插即用的反馈控制器，可部署在预训练的RL策略之上。

RGB的核心创新在于，不将RL策略作为最终控制器，而是将其作为采样先验，用于引导模型预测路径积分（MPPI）的滚动优化趋向于动力学可行的行为。任务目标通过模块化的MPPI成本项指定，MPPI通过在线连续校正RL先验来满足这些目标，而无需重新训练策略。这种设计使得RGB能够灵活地适应新任务，只需调整成本函数即可，极大地增强了控制器的通用性和可扩展性。

在MuJoCo仿真环境中，研究团队对Unitree G1人形机器人（29个自由度）进行了大量实验验证。实验结果显示，RGB实现了稳定的高速控制，平均控制频率达到280赫兹，这对于实时控制至关重要。与纯RL基线相比，RGB在相同命令接口下显著提升了任务级精度——具体表现为纠正了直线行走时的系统性漂移，并成功跟踪了通过成本函数施加的额外全身参考信号，例如手臂姿态和躯干方向等。

研究人员指出，RGB框架特别适用于需要高精度和鲁棒性的场合，如工业操作、灾难救援或家庭服务等。由于不需要重新训练策略，RGB可以快速适应新任务，降低了部署成本。此外，RGB的模块化设计允许研究人员和工程师根据具体需求定制成本项，进一步扩展其应用范围。该研究论文已提交至arXiv，并附带了完整的视频演示，展示了RGB在不同任务场景下的卓越性能。