反射式VLA:利用上下文動作後果實現VLA的泛化
大多數視覺-語言-動作(VLA)模型是反應式的,僅根據當前指令和觀測預測下一步動作,難以應對部署時的環境變化。本文提出反射式VLA,通過上下文中的觀測-動作-後果三元組來調節決策,從而暴露部署特定的動作-效果映射。在LIBERO等基準測試中,反射式VLA在分佈偏移下平均成功率提升5.4和4.2個百分點,消融實驗表明動作後果而非額外上下文長度是關鍵。
在計算機視覺與機器人學交叉領域,視覺-語言-動作(VLA)模型正日益受到關注。然而,現有大多數VLA模型本質上是被動的:它們僅依賴當前觀測和指令來預測下一步動作,隱含假設當前觀測已完全包含動作相關狀態。這種反應式設計在實際部署中面臨嚴峻挑戰,因為許多與具體實體相關的因素——例如相機與機器人之間的幾何關係、機器人校準誤差或系統性的執行偏差——往往無法從單幀觀測中識別出來。這導致模型容易過擬合訓練環境,在分佈變化時泛化性能不佳。
為突破這一侷限,來自研究機構的Qing Lian等人提出了反射式VLA(Reflective VLA)。該模型將每個決策建立在一個由觀測-動作-後果三元組構成的上下文基礎上。每個三元組不僅記錄機器人觀察到什麼、執行了什麼動作,還記錄了動作執行後場景如何變化。這種設計使得模型能夠學習到部署環境特有的動作-效果映射,從而在環境變化時仍能做出準確判斷。
在架構層面,反射式VLA將所有觀測模態(如視覺、語言等)通過一個共享注意力機制的視覺語言模型(VLM)進行處理。動作專家(action expert)直接基於過去的三元組和當前觀測進行推理。此外,模型採用塊因果掩碼(block-causal mask)實現並行多幀訓練,支持鍵值緩存實時推理,兼顧了訓練效率和推理速度。
實驗部分,該模型在標準LIBERO和SimplerEnv-Bridge基準上保持了強大的分佈內性能。在更具挑戰性的LIBERO-Plus和LIBERO-Plus-Hard分佈偏移場景中,反射式VLA相較匹配的反應式基線,平均成功率分別提升了5.4和4.2個百分點。更重要的是,與僅使用歷史動作(不含後果)的對比實驗表明,正是動作後果信息——而非單純的上下文長度增加——推動了跨環境泛化能力的提升。
該研究成果已在arXiv上發佈,項目頁面提供更多細節。這項工作為提升VLA模型在真實機器人控制中的魯棒性提供了新思路。