TaskNPoint:如何在几分钟内教会你的人形机器人打反手球
这篇论文提出了TaskNPoint训练协议,通过人类教练提供少量输入(技能集、一次演示、交互窗口和目标),让人形机器人在物理仿真环境中快速掌握动态技能。实验在Unitree G1人形机器人上进行,成功执行了网球正反手击球、踢足球和搬箱子等任务,且训练时间不到一小时,无需每任务奖励调整。
人类如何学会打网球反手?不是通过观看数千小时的电视比赛,而是在教练的指导下反复练习。来自arXiv的一项新研究认为,这正是教人形机器人掌握动态技能的正确方法。研究人员提出了TaskNPoint训练协议,其核心理念源于动态技能的结构属性:技能的执行结果往往由轨迹中一个短暂但关键的部分决定——以网球反手为例,就是球拍在击球点附近约20厘米的行程。只要这个交互窗口处理得当,整个动作就能协调一致,让控制、物理和形态学协同工作。
TaskNPoint协议明确划分了人类教练和机器学习的职责。人类教练只需提供四项输入:一组离散的技能(如不同的击球方式)、每个技能的一次演示、交互窗口的识别以及目标。机器学习则在物理逼真的仿真环境中填充每个动作轨迹,并增强对未建模事件的鲁棒性。更重要的是,训练过程中的随机目标采样使得单次演示能够零样本泛化到未见过的目标位置。
研究团队在Unitree G1人形机器人上测试了该方法。机器人成功执行了多种动态任务,包括正手和反手击打人类抛出的网球、踢飞来的足球,以及从新位置取放箱子。实验表明,仅需简短的人类视频演示和在单个GPU上不到一小时的训练,机器人就能学会这些技能,且无需针对每项任务进行奖励调整。这一成果为快速、高效地教授人形机器人复杂物理技能开辟了新路径。
TaskNPoint的核心思想是利用动态技能的结构特性,即技能的关键在于轨迹中一个短而关键的交互窗口。对于反手击球,这大约只有20厘米的球拍行程。只要机器人学会在该窗口内正确执行动作,整个技能就能成功。这种思想类似于人类在教练指导下反复练习特定环节,而不是盲目地重复整个动作。
该协议的另一亮点是它的实用性。人类教练无需具备编程或机器人专业知识,只需提供简单的演示和识别交互窗口。这使得非专家也能参与机器人的技能培训,降低了应用门槛。同时,由于训练可在单GPU上一小时内完成,该方法非常适合快速迭代和部署。
未来的工作可能包括在更复杂的任务和多机器人协作中验证该协议,以及将其扩展到更广泛的动态技能领域。TaskNPoint为机器人的技能学习提供了新的思路,使机器人能够像人类一样通过少量指导和练习掌握新技能。