2026-06-26 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-26 16:13 UTC+8

RMTL：基于强化微任务学习的长时操作与VLM奖励

本文提出RMTL（强化微任务学习），将长时操作任务分解为多个语言描述的微任务，并训练智能体进行切换。通过多视角VLM奖励、逆向课程和分层策略，RMTL提供了比单提示VLM奖励更丰富的奖励信号，加速学习。在Fetch操作环境中的实验验证了其有效性。

来源arXiv Robotics作者: An{\i}l Can Ate\c{s}, Orhan Kahraman, Cihan Topal

强化学习在机器人操作任务中通常需要手动设计稠密奖励函数，这既难以调校又容易出错；或者通过人类演示或偏好来学习奖励，但这种方式成本高昂。最近的研究利用预训练的视觉语言模型（VLM）作为零样本奖励模型，只需一个文本提示即可替代上述成本。然而，研究人员指出，对于初始条件随机的长时间操作任务，单一全局提示过于粗糙：单提示VLM奖励在轨迹的大部分时段接近平坦，导致智能体难以检测早期进展。

为解决这个问题，本文提出强化微任务学习（RMTL），一种将操作任务分解为少量语言描述的微任务的方法。智能体被训练在这些微任务之间切换。在每个步骤，智能体接收基于当前活跃微任务提示的多视角VLM奖励，并通过多个相机视角平均以减少视角特定遮挡的影响。同时采用逆向课程，逐步将智能体暴露于更难的初始条件。首先使用基于固定距离的规则选择活跃微任务来训练PPO工作器，之后用学习到的分层管理器替代该规则，将基于规则的阶段选择转变为完全学习的分层策略。

RMTL在Fetch操作环境中实例化，使用了三个简短阶段特定提示：接近物体、抓取物体、移动物体到目标位置。这些提示无需额外调优。实验在多种初始条件下进行，包括随机放置物体和目标位置。结果表明，RMTL提供的奖励信号比单提示VLM奖励更丰富，使得学习更快、更稳定。特别是在早期阶段，RMTL能给予智能体更明确的反馈，帮助其快速掌握基本技能。随着训练进行，分层管理器学会根据当前状态自适应切换微任务，进一步优化策略。

这些发现表明，将VLM奖励分解为微任务特定的语言提示可以显著提高语言引导强化学习在机器人操作中的可扩展性。未来工作可以探索更复杂的任务分解、多机器人协作以及实际机器人部署中的挑战。