AsgardBench:一個用於視覺基礎互動規劃的基準測試
AsgardBench 是一個新的基準測試,旨在測試具身AI代理能否根據視覺反饋調整計劃。它基於AI2-THOR模擬環境,將代理置於廚房等場景中,要求其透過觀察物體狀態(如杯子是否乾淨)來動態調整動作序列。測試表明,視覺輸入顯著提升了成功率,但當前模型在區分細微視覺細節、跟蹤任務進度和及時更新計劃方面仍有不足。
想象一下,一個機器人被要求清理廚房。它需要觀察環境,決定做什麼,並在事情不如預期時進行調整——例如,當它要洗的杯子已經乾淨,或者水槽裡堆滿了其他物品。這就是具身AI的領域:系統感知環境並在此環境中行動。該領域進展迅速,但評估這些系統比看起來要困難得多。許多基準測試同時評估感知、導航和物理控制,這使得難以確定AI代理是否真的利用感知來做出更好的決策,還是僅僅因為環境足夠可預測而僥倖成功。
為了應對這一問題,我們建立了AsgardBench。在論文“AsgardBench — Evaluating Visually Grounded Interactive Planning Under Minimal Feedback”中,我們描述了該基準如何提出一個簡單但具有挑戰性的任務:給AI代理一個家務指令,讓它透過影像觀察環境,並觀察它是否能在感知與預期相矛盾時調整計劃。它能否注意到需要清潔的杯子已經在水槽裡,或者沒有,並相應行動?這是AsgardBench旨在回答的核心問題。
AsgardBench 構建於AI2-THOR之上,這是一個用於訓練和評估AI代理執行家務任務的互動式3D模擬環境。它將代理置於物體附近,並提供一組固定的動作,如“查詢”、“拾取”、“放置”、“清潔”和“開啟/關閉”。在每一步,代理提出完成任務的完整步驟序列,但只有第一步被執行。整個過程中,重點完全放在計劃適應上——不是代理能否導航房間或操縱物體,而是它能否利用感知來調整下一步。
例如,代理可能發現杯子是乾淨的、髒的或裝有咖啡,或者觀察到水槽中有許多其他物品,因此相同的指令可能需要不同的動作序列。AsgardBench 透過受控設定隔離了視覺基礎決策的能力。在測試中,我們評估了多種領先的視覺能力模型,發現視覺輸入顯著提升了效能:大多數模型在給定影像時,成功率比僅憑文本描述場景時提高了一倍以上。這與此前一些基準測試形成了對比,在那裡代理可以在沒有視覺的情況下透過依賴失敗文本反饋而表現良好。
然而,AsgardBench 的結果也揭示了當前代理的持續不足。所有模型都出現了相同的問題:嘗試不可行的動作(例如,試圖清潔不在水槽中的杯子)、陷入重複動作迴圈、誤解細微視覺線索(開啟/關閉、乾淨/髒亂),以及丟失任務進度。這些指向三個弱點:在雜亂場景中區分細微視覺細節的能力不足、跨步驟維護準確任務進度影像的能力不足,以及將所見轉化為及時計劃更新的能力不足。這些指出了下一代具身代理需要改進的方向。
AsgardBench 既是診斷工具也是開發工具。透過改變代理接收的反饋(無反饋、最少反饋或詳細反饋),研究人員可以隔離效能提升的來源——更好的感知、更好的記憶還是更好的規劃。有希望的方向包括結合更強視覺理解與更好狀態跟蹤的系統、強調中期任務修復計劃的訓練方法,以及不僅衡量代理是否成功還衡量其適應程度的評估指標。AsgardBench 是開源的,可在GitHub上獲取,為推進視覺基礎規劃研究提供了基礎。