AI能告訴你鑰匙放在哪嗎?
麻省理工學院研究人員開發了一種新的長期記憶框架DAAAM,該框架結合了豐富的物件描述和3D地圖,使機器人能夠快速形成和回憶詳細的空間記憶,並用自然語言回答複雜問題。這項技術的準確性比現有方法高21%至53%,可應用於機器人、增強現實等領域。
在汽車工廠中,工人能輕鬆記住前一晚存放半成品零件的位置,並快速取回。但與其協同工作的機器人卻難以建立這種“時空記憶”。為解決這一難題,麻省理工學院(MIT)的研究人員開發了一種名為DAAAM(Describe Anything, Anywhere, Anytime, at Any Moment)的長期記憶框架。該框架使機器人能夠迅速形成並回憶複雜、大規模環境的詳細心理模型。未來,工人只需用自然語言指令“去拿我們昨晚開始組裝的那個零件”,機器人助手就能準確執行。
DAAAM融合了先進的地圖表示與機器人長時間探索中收集的豐富環境描述。機器人透過它,可以用通俗語言回答關於環境的複雜問題。與現有方法相比,該框架不僅回答更準確,而且執行速度足以讓移動機器人即時使用。除了機器人,該技術還可應用於增強現實系統,幫助維護人員檢測異常或為通勤者導航。
“如果我們希望機器人與人類並肩工作並更好地互動,它們必須用同一種語言,”MIT航空航天系副教授、資訊與決策系統實驗室首席研究員、SPARK實驗室主任Luca Carlone說,“機器人必須像人類一樣推理時間和空間。這正是我們的方法所做的——將傳統地圖轉化為基於語言的對映,使機器人更容易思考和訪問。”
這項研究由Carlone領導,第一作者為MIT研究生Nicolas Gorlo,合作者包括前MIT研究科學家、現德國紐倫堡工業大學教授Lukas Schmid。研究成果已在計算機視覺與模式識別大會(CVPR)上展示。
為了構建這樣的記憶框架,研究團隊將計算機視覺與機器人建圖兩條研究路線結合。多模態計算機視覺模型能理解並豐富描述場景中的物件,但通常一次只處理一個標註;而建圖框架能建立環境的三維地圖,但缺乏物件細節或計算成本高昂。DAAAM綜合了兩者優點:機器人在穿行環境時,為所見物件附加豐富描述(例如,“MIT校園的Stata Center是解構主義建築”,“那個腳踏車架上停著五輛腳踏車,紅色那輛輪胎沒氣”),並將這些資訊儲存在空間排列的三維地圖表示中,物件按區域分組。這樣,機器人就能記住“輪胎沒氣的紅色腳踏車在Stata Center外的腳踏車架上”。
現有技術通常需要幾秒來標註幾個物件,對於機器人在幾分鐘內看到數百個物件的情況來說太慢。DAAAM透過聚合附近物件並採用最佳化方法選擇最清晰的關鍵幀來並行標註多個物件,將計算速度提升十倍。每個物件只標註一次,因此框架能在大型環境中即時執行。透過將物件聚類到區域,它能回答關於物件和位置的各種問題。
一旦構建了空間記憶,系統需要從龐大的物件和描述資料庫中高效檢索資訊。研究人員使用大語言模型(LLM)呼叫多種工具,快速獲取特定資訊並減少幻覺。例如,詢問機器人關於MIT校園建築附近的雕塑,DAAAM可使用語義搜尋工具檢索“雕塑”相關資料,或使用位置檢索工具查詢建築附近的資訊。測試顯示,DAAAM在不同問題型別上的準確率比現有方法高21%至53%。
未來,研究人員計劃擴充套件DAAAM,使其能捕捉環境中發生的重大事件,並融入響應置信度水平。“最終,我們希望機器人能幫助完成各種任務。這個框架旨在為通用智慧體奠定基礎,使其能執行你要求的任何任務,”Gorlo說。這項研究部分由美國陸軍研究實驗室和海軍研究辦公室資助。Carlone目前在亞馬遜休學術假,但本文描述的工作在MIT完成,與亞馬遜無關。