AI能告诉你钥匙放在哪吗?
麻省理工学院研究人员开发了一种新的长期记忆框架DAAAM,该框架结合了丰富的对象描述和3D地图,使机器人能够快速形成和回忆详细的空间记忆,并用自然语言回答复杂问题。这项技术的准确性比现有方法高21%至53%,可应用于机器人、增强现实等领域。
在汽车工厂中,工人能轻松记住前一晚存放半成品零件的位置,并快速取回。但与其协同工作的机器人却难以建立这种“时空记忆”。为解决这一难题,麻省理工学院(MIT)的研究人员开发了一种名为DAAAM(Describe Anything, Anywhere, Anytime, at Any Moment)的长期记忆框架。该框架使机器人能够迅速形成并回忆复杂、大规模环境的详细心理模型。未来,工人只需用自然语言指令“去拿我们昨晚开始组装的那个零件”,机器人助手就能准确执行。
DAAAM融合了先进的地图表示与机器人长时间探索中收集的丰富环境描述。机器人通过它,可以用通俗语言回答关于环境的复杂问题。与现有方法相比,该框架不仅回答更准确,而且运行速度足以让移动机器人实时使用。除了机器人,该技术还可应用于增强现实系统,帮助维护人员检测异常或为通勤者导航。
“如果我们希望机器人与人类并肩工作并更好地互动,它们必须用同一种语言,”MIT航空航天系副教授、信息与决策系统实验室首席研究员、SPARK实验室主任Luca Carlone说,“机器人必须像人类一样推理时间和空间。这正是我们的方法所做的——将传统地图转化为基于语言的映射,使机器人更容易思考和访问。”
这项研究由Carlone领导,第一作者为MIT研究生Nicolas Gorlo,合作者包括前MIT研究科学家、现德国纽伦堡工业大学教授Lukas Schmid。研究成果已在计算机视觉与模式识别大会(CVPR)上展示。
为了构建这样的记忆框架,研究团队将计算机视觉与机器人建图两条研究路线结合。多模态计算机视觉模型能理解并丰富描述场景中的对象,但通常一次只处理一个标注;而建图框架能创建环境的三维地图,但缺乏对象细节或计算成本高昂。DAAAM综合了两者优点:机器人在穿行环境时,为所见对象附加丰富描述(例如,“MIT校园的Stata Center是解构主义建筑”,“那个自行车架上停着五辆自行车,红色那辆轮胎没气”),并将这些信息存储在空间排列的三维地图表示中,对象按区域分组。这样,机器人就能记住“轮胎没气的红色自行车在Stata Center外的自行车架上”。
现有技术通常需要几秒来标注几个对象,对于机器人在几分钟内看到数百个对象的情况来说太慢。DAAAM通过聚合附近对象并采用优化方法选择最清晰的关键帧来并行标注多个对象,将计算速度提升十倍。每个对象只标注一次,因此框架能在大型环境中实时运行。通过将对象聚类到区域,它能回答关于对象和位置的各种问题。
一旦构建了空间记忆,系统需要从庞大的对象和描述数据库中高效检索信息。研究人员使用大语言模型(LLM)调用多种工具,快速获取特定信息并减少幻觉。例如,询问机器人关于MIT校园建筑附近的雕塑,DAAAM可使用语义搜索工具检索“雕塑”相关数据,或使用位置检索工具查找建筑附近的信息。测试显示,DAAAM在不同问题类型上的准确率比现有方法高21%至53%。
未来,研究人员计划扩展DAAAM,使其能捕捉环境中发生的重大事件,并融入响应置信度水平。“最终,我们希望机器人能帮助完成各种任务。这个框架旨在为通用智能体奠定基础,使其能执行你要求的任何任务,”Gorlo说。这项研究部分由美国陆军研究实验室和海军研究办公室资助。Carlone目前在亚马逊休学术假,但本文描述的工作在MIT完成,与亚马逊无关。