AI News HubLIVE
站內改寫3 分鐘閱讀

大語言模型幫助機器人理解模糊指令並聚焦關鍵細節

麻省理工學院計算機科學與人工智能實驗室(CSAIL)的研究人員提出了一種名為“掩蔽逆強化學習”(Masked IRL)的新方法,利用兩個大語言模型自動澄清用户的模糊指令,並過濾無關信息,從而減少機器人學習新任務所需的人工演示數據量。該方法在仿真和真實機器人實驗中表現出色,能更準確地理解用户未明確表達的偏好,並安全地執行任務。

來源MIT News AI作者: Alex Shipps | MIT CSAIL

想象一下,在不久的將來,你在倉庫或辦公室工作,需要幫助一名新“實習生”學習基本工作。這個實習生是一個機器人。傳統的教學方式需要大量物理演示或詳細書面指令,但這對人類來説既繁瑣又耗時。例如,如果你要求機器人將咖啡放到你的辦公桌上,同時不打擾你正在進行Zoom會議,你希望機器人不要離你和筆記本電腦太近,以免干擾會議。為了實現這種行為,機器人需要用清晰展示整個任務的數據進行訓練。計算機科學家曾嘗試通過錄制大量物理演示或編寫詳細指令來向機器人解釋操作任務,但如果兩者缺一,機器人很可能誤解需要做什麼。

為了減輕人類的負擔,麻省理工學院計算機科學與人工智能實驗室(CSAIL)的研究人員自動化了教學過程,同時自動澄清指令,並將演示數據量減少了近五倍。他們的“掩蔽逆強化學習”(Masked IRL)方法利用一個大語言模型(LLM)根據用户演示數據擴展模糊提示,再用另一個LLM篩選出算法應納入規劃細節的要素,使機器人能夠安全地在家庭、辦公室和工廠中完成任務。

“當人類與機器人互動但不想詳細説明任務的所有細節時,我們的方法會非常有用,”MIT博士生、CSAIL研究員Minyoung Hwang説,他是展示該項目的論文的主要作者。“我們通過讓機器深入瞭解用户的真實意圖,最大限度地減少人力。”Hwang表示,Masked IRL可以幫助機器人在存在人類可能未在提示中描述但至關重要的元素的環境中安全操作。例如,從廚房給你拿零食的機器人可能不知道要避免撞到你的筆記本電腦。同樣,將物品放入不同盒子的工廠機器人必須小心地在貨架間導航。

為了在這些情況下學習新任務,Masked IRL使用機器人的傳感器捕獲周圍環境的信息。這些組件還會記錄運動學演示中的每個動作——這是一種人類物理移動機器人執行特定動作的訓練方法,類似於為機器人做物理治療,彎曲關節以展示如何抓取、移動和放置物體。MIT的系統隨後調用一個LLM將此動作序列(稱為軌跡)與最短可能路徑進行比較。該模型還會擴展提示中可能不明確的內容,將“保持靠近”這樣的請求轉化為“保持靠近桌子表面”。通過軌跡比較和澄清的指令,LLM開始理解訓練動作對任務的重要性。

然後,第二個LLM評估環境的細節,如障礙物的位置和機器人目標對象的形狀。在此過程中,它“掩蔽”(即忽略)認為與當前任務無關的元素,每個元素被評分為“1”(重要)或“0”(不重要)。例如,用户演示時是否靠在桌子上將被評分為“0”,視為無關。任何被認為是“1”的細節都會被算法納入最終行動計劃。

這些掩蔽使Masked IRL在3D仿真和真實世界演示中相比基線方法具有關鍵優勢,因為它教會了機器人哪些信息需要優先處理。得益於研究人員的系統,虛擬和真實機器人都能靈巧地繞過障礙物移動物體,例如將咖啡杯繞過筆記本電腦移到桌子上的不同位置。在這些任務中,Masked IRL正確識別用户未在提示中明確表達的偏好的準確率比可比基線高出15%。

在仿真實驗中,CSAIL研究人員還發現Masked IRL學習速度快,理解如何移動杯子所需的演示次數少於基線方法。他們還發現,當LLM澄清指令時,機器人表現更好,而不是讓機器嘗試遵循模糊請求。這種更集中的方法也很好地遷移到了真實的機械臂上,使其能夠執行訓練階段未見過的提示。經過50次運動學演示訓練後,機器人小心地將杯子移向人類,同時避免碰撞用户的電腦——這是通過擴展“保持遠離”的一般請求而學會避免的障礙。它還可以“保持靠近”桌子擦拭桌面,並在“保持遠離”人類和桌子的同時將一袋薯片遞給用户。

Masked IRL感知並解釋用户未明説的內容,但很快它也可能“看到”它們。CSAIL研究人員計劃通過配備攝像頭使方法更加動態,讓機器人拍攝周圍環境的圖像,然後高亮並聚焦附近的特定元素。例如,如果你要求機器人拿起玩具,它可能會看到附近的香蕉並忽略它們,然後再處理目標物體。

Hwang與三位CSAIL同事合著了論文:博士生Alexandra Forsey-Smerek('20,SM '22)、博士後Nathaniel Dennler以及MIT助理教授Andreea Bobu,她是航空航天系和CSAIL的成員。該工作部分得到了塔塔集團通過MIT生成式AI影響聯盟獎以及國防部的支持。他們將在2026年6月的IEEE國際機器人與自動化會議上展示該項目。