大语言模型帮助机器人理解模糊指令并聚焦关键细节
麻省理工学院计算机科学与人工智能实验室(CSAIL)的研究人员提出了一种名为“掩蔽逆强化学习”(Masked IRL)的新方法,利用两个大语言模型自动澄清用户的模糊指令,并过滤无关信息,从而减少机器人学习新任务所需的人工演示数据量。该方法在仿真和真实机器人实验中表现出色,能更准确地理解用户未明确表达的偏好,并安全地执行任务。
想象一下,在不久的将来,你在仓库或办公室工作,需要帮助一名新“实习生”学习基本工作。这个实习生是一个机器人。传统的教学方式需要大量物理演示或详细书面指令,但这对人类来说既繁琐又耗时。例如,如果你要求机器人将咖啡放到你的办公桌上,同时不打扰你正在进行Zoom会议,你希望机器人不要离你和笔记本电脑太近,以免干扰会议。为了实现这种行为,机器人需要用清晰展示整个任务的数据进行训练。计算机科学家曾尝试通过录制大量物理演示或编写详细指令来向机器人解释操作任务,但如果两者缺一,机器人很可能误解需要做什么。
为了减轻人类的负担,麻省理工学院计算机科学与人工智能实验室(CSAIL)的研究人员自动化了教学过程,同时自动澄清指令,并将演示数据量减少了近五倍。他们的“掩蔽逆强化学习”(Masked IRL)方法利用一个大语言模型(LLM)根据用户演示数据扩展模糊提示,再用另一个LLM筛选出算法应纳入规划细节的要素,使机器人能够安全地在家庭、办公室和工厂中完成任务。
“当人类与机器人互动但不想详细说明任务的所有细节时,我们的方法会非常有用,”MIT博士生、CSAIL研究员Minyoung Hwang说,他是展示该项目的论文的主要作者。“我们通过让机器深入了解用户的真实意图,最大限度地减少人力。”Hwang表示,Masked IRL可以帮助机器人在存在人类可能未在提示中描述但至关重要的元素的环境中安全操作。例如,从厨房给你拿零食的机器人可能不知道要避免撞到你的笔记本电脑。同样,将物品放入不同盒子的工厂机器人必须小心地在货架间导航。
为了在这些情况下学习新任务,Masked IRL使用机器人的传感器捕获周围环境的信息。这些组件还会记录运动学演示中的每个动作——这是一种人类物理移动机器人执行特定动作的训练方法,类似于为机器人做物理治疗,弯曲关节以展示如何抓取、移动和放置物体。MIT的系统随后调用一个LLM将此动作序列(称为轨迹)与最短可能路径进行比较。该模型还会扩展提示中可能不明确的内容,将“保持靠近”这样的请求转化为“保持靠近桌子表面”。通过轨迹比较和澄清的指令,LLM开始理解训练动作对任务的重要性。
然后,第二个LLM评估环境的细节,如障碍物的位置和机器人目标对象的形状。在此过程中,它“掩蔽”(即忽略)认为与当前任务无关的元素,每个元素被评分为“1”(重要)或“0”(不重要)。例如,用户演示时是否靠在桌子上将被评分为“0”,视为无关。任何被认为是“1”的细节都会被算法纳入最终行动计划。
这些掩蔽使Masked IRL在3D仿真和真实世界演示中相比基线方法具有关键优势,因为它教会了机器人哪些信息需要优先处理。得益于研究人员的系统,虚拟和真实机器人都能灵巧地绕过障碍物移动物体,例如将咖啡杯绕过笔记本电脑移到桌子上的不同位置。在这些任务中,Masked IRL正确识别用户未在提示中明确表达的偏好的准确率比可比基线高出15%。
在仿真实验中,CSAIL研究人员还发现Masked IRL学习速度快,理解如何移动杯子所需的演示次数少于基线方法。他们还发现,当LLM澄清指令时,机器人表现更好,而不是让机器尝试遵循模糊请求。这种更集中的方法也很好地迁移到了真实的机械臂上,使其能够执行训练阶段未见过的提示。经过50次运动学演示训练后,机器人小心地将杯子移向人类,同时避免碰撞用户的电脑——这是通过扩展“保持远离”的一般请求而学会避免的障碍。它还可以“保持靠近”桌子擦拭桌面,并在“保持远离”人类和桌子的同时将一袋薯片递给用户。
Masked IRL感知并解释用户未明说的内容,但很快它也可能“看到”它们。CSAIL研究人员计划通过配备摄像头使方法更加动态,让机器人拍摄周围环境的图像,然后高亮并聚焦附近的特定元素。例如,如果你要求机器人拿起玩具,它可能会看到附近的香蕉并忽略它们,然后再处理目标物体。
Hwang与三位CSAIL同事合著了论文:博士生Alexandra Forsey-Smerek('20,SM '22)、博士后Nathaniel Dennler以及MIT助理教授Andreea Bobu,她是航空航天系和CSAIL的成员。该工作部分得到了塔塔集团通过MIT生成式AI影响联盟奖以及国防部的支持。他们将在2026年6月的IEEE国际机器人与自动化会议上展示该项目。