2026-05-22 21:40 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

新框架幫助機器人將複雜語言轉化為精確的3D動作

香港中文大學等機構的研究人員提出檢索增強操作（RAM）框架，透過將視覺語言模型與顯式3D物件表示相結合，使機器人能夠理解複雜空間指令並精準執行任務，無需特定訓練。該框架在真實機器人上零樣本測試成功，可自適應重新規劃動作。

在過去幾十年裡，全球機器人學家不斷推出越來越先進的機器人，它們能夠理解人類指令、在環境中移動並可靠地完成基本的手工任務。儘管在某些場景中表現良好，許多機器人仍難以將使用者的指令轉化為精確且可執行的動作，從而成功完成期望的任務。

最近，電腦科學家嘗試利用視覺語言模型（VLM）來改善機器人對使用者命令或查詢的響應。這些AI系統能夠處理影像和文本，通常可以解釋“把瓶子放到盤子上”等簡單請求，但缺乏空間推理能力來理解更復雜的指令並將其轉化為現實世界中的可執行動作。

香港中文大學、浙江人形機器人創新中心有限公司等機構的研究人員提出了檢索增強操作（RAM）框架，以提升機器人將抽象指令與周圍空間3D表示連線起來的能力。該框架發表在《科學機器人》上，實驗表明它能改善機器人的空間推理，使其可靠地遵循更詳細的指令，而無需任務特定訓練。

研究人員在論文中寫道：“儘管VLM能解釋高階命令，但它們缺乏執行需要精確物體放置、方向和物理推理的任務所需的內在空間智慧。我們引入RAM，一個以物體為中心的框架，賦予通用視覺基礎模型進行穩健操作所需的空間推理能力。”

RAM框架將VLM與顯式3D物件表示相結合。與許多先前方法不同，它充當了兩種能力之間的橋樑：解釋人類指令和理解物體在3D空間中的存在方式。RAM透過將抽象概念錨定到顯式的、以物體為中心的3D表示中，彌合了語義到幾何的鴻溝。然後，這些接地資訊作為增強上下文提供給VLM，使其能夠將複雜指令分解為一系列空間精確且物理可行的子目標。

系統分析機器人攝像頭捕獲的影像，識別特定物體並構建當前環境的3D物體中心表示。這使模型能夠描繪物體的位置、大致形狀和尺寸、方向以及它們之間的距離。在VLM處理人類指令後，RAM將3D場景表示中的空間資訊反饋給模型，從而將抽象語言轉化為與當前場景物理相關的指令。

隨後，框架將機器人被指令完成的任務分解為具有空間資訊的子目標。將任務分解為更小的步驟使系統能夠在周圍環境發生變化或出現問題時調整和規劃不同動作。

作者表示：“我們演示了RAM在真實機器人上以零樣本方式執行這些子目標，以完成複雜的空間語言指令，在單張2D影像指導下進行空間感知操作，並透過推理物體大小和碰撞等物理約束自適應重新規劃任務。在3D常見物體（CO3D）資料集上的定量評估也驗證了RAM核心視覺模組泛化到未見過的物體類別，並對形狀變化和遮擋具有魯棒性。”

研究團隊已經在真實機器人上測試了該框架，指令其執行各種未經訓練的任務。值得注意的是，機器人能夠成功完成許多工，並在動作未能實現期望子目標時自適應重新規劃。

研究人員總結：“透過在語義意圖和幾何執行之間提供結構化橋樑，RAM朝著開發更具物理智慧和通用性的機器人系統邁出了關鍵一步。”該框架有望未來在家庭、工業和服務機器人中得到應用，使它們能夠緊密遵循使用者指令並在動態現實環境中靈活調整動作。