AI能告訴你鑰匙放在哪嗎?
麻省理工學院研究人員開發了一種新的長期記憶框架DAAAM,該框架結合了豐富的對象描述和3D地圖,使機器人能夠快速形成和回憶詳細的空間記憶,並用自然語言回答複雜問題。這項技術的準確性比現有方法高21%至53%,可應用於機器人、增強現實等領域。
在汽車工廠中,工人能輕鬆記住前一晚存放半成品零件的位置,並快速取回。但與其協同工作的機器人卻難以建立這種“時空記憶”。為解決這一難題,麻省理工學院(MIT)的研究人員開發了一種名為DAAAM(Describe Anything, Anywhere, Anytime, at Any Moment)的長期記憶框架。該框架使機器人能夠迅速形成並回憶複雜、大規模環境的詳細心理模型。未來,工人只需用自然語言指令“去拿我們昨晚開始組裝的那個零件”,機器人助手就能準確執行。
DAAAM融合了先進的地圖表示與機器人長時間探索中收集的豐富環境描述。機器人通過它,可以用通俗語言回答關於環境的複雜問題。與現有方法相比,該框架不僅回答更準確,而且運行速度足以讓移動機器人實時使用。除了機器人,該技術還可應用於增強現實系統,幫助維護人員檢測異常或為通勤者導航。
“如果我們希望機器人與人類並肩工作並更好地互動,它們必須用同一種語言,”MIT航空航天系副教授、信息與決策系統實驗室首席研究員、SPARK實驗室主任Luca Carlone説,“機器人必須像人類一樣推理時間和空間。這正是我們的方法所做的——將傳統地圖轉化為基於語言的映射,使機器人更容易思考和訪問。”
這項研究由Carlone領導,第一作者為MIT研究生Nicolas Gorlo,合作者包括前MIT研究科學家、現德國紐倫堡工業大學教授Lukas Schmid。研究成果已在計算機視覺與模式識別大會(CVPR)上展示。
為了構建這樣的記憶框架,研究團隊將計算機視覺與機器人建圖兩條研究路線結合。多模態計算機視覺模型能理解並豐富描述場景中的對象,但通常一次只處理一個標註;而建圖框架能創建環境的三維地圖,但缺乏對象細節或計算成本高昂。DAAAM綜合了兩者優點:機器人在穿行環境時,為所見對象附加豐富描述(例如,“MIT校園的Stata Center是解構主義建築”,“那個自行車架上停着五輛自行車,紅色那輛輪胎沒氣”),並將這些信息存儲在空間排列的三維地圖表示中,對象按區域分組。這樣,機器人就能記住“輪胎沒氣的紅色自行車在Stata Center外的自行車架上”。
現有技術通常需要幾秒來標註幾個對象,對於機器人在幾分鐘內看到數百個對象的情況來説太慢。DAAAM通過聚合附近對象並採用優化方法選擇最清晰的關鍵幀來並行標註多個對象,將計算速度提升十倍。每個對象只標註一次,因此框架能在大型環境中實時運行。通過將對象聚類到區域,它能回答關於對象和位置的各種問題。
一旦構建了空間記憶,系統需要從龐大的對象和描述數據庫中高效檢索信息。研究人員使用大語言模型(LLM)調用多種工具,快速獲取特定信息並減少幻覺。例如,詢問機器人關於MIT校園建築附近的雕塑,DAAAM可使用語義搜索工具檢索“雕塑”相關數據,或使用位置檢索工具查找建築附近的信息。測試顯示,DAAAM在不同問題類型上的準確率比現有方法高21%至53%。
未來,研究人員計劃擴展DAAAM,使其能捕捉環境中發生的重大事件,並融入響應置信度水平。“最終,我們希望機器人能幫助完成各種任務。這個框架旨在為通用智能體奠定基礎,使其能執行你要求的任何任務,”Gorlo説。這項研究部分由美國陸軍研究實驗室和海軍研究辦公室資助。Carlone目前在亞馬遜休學術假,但本文描述的工作在MIT完成,與亞馬遜無關。