2026-06-25 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-25 16:03 UTC+8

反射式VLA：利用上下文動作後果實現VLA的泛化

大多數視覺-語言-動作（VLA）模型是反應式的，僅根據當前指令和觀測預測下一步動作，難以應對部署時的環境變化。本文提出反射式VLA，通過上下文中的觀測-動作-後果三元組來調節決策，從而暴露部署特定的動作-效果映射。在LIBERO等基準測試中，反射式VLA在分佈偏移下平均成功率提升5.4和4.2個百分點，消融實驗表明動作後果而非額外上下文長度是關鍵。

來源arXiv Computer Vision作者: Qing Lian, Kent Yu, Lei Zhang

在計算機視覺與機器人學交叉領域，視覺-語言-動作（VLA）模型正日益受到關注。然而，現有大多數VLA模型本質上是被動的：它們僅依賴當前觀測和指令來預測下一步動作，隱含假設當前觀測已完全包含動作相關狀態。這種反應式設計在實際部署中面臨嚴峻挑戰，因為許多與具體實體相關的因素——例如相機與機器人之間的幾何關係、機器人校準誤差或系統性的執行偏差——往往無法從單幀觀測中識別出來。這導致模型容易過擬合訓練環境，在分佈變化時泛化性能不佳。

為突破這一侷限，來自研究機構的Qing Lian等人提出了反射式VLA（Reflective VLA）。該模型將每個決策建立在一個由觀測-動作-後果三元組構成的上下文基礎上。每個三元組不僅記錄機器人觀察到什麼、執行了什麼動作，還記錄了動作執行後場景如何變化。這種設計使得模型能夠學習到部署環境特有的動作-效果映射，從而在環境變化時仍能做出準確判斷。

在架構層面，反射式VLA將所有觀測模態（如視覺、語言等）通過一個共享注意力機制的視覺語言模型（VLM）進行處理。動作專家（action expert）直接基於過去的三元組和當前觀測進行推理。此外，模型採用塊因果掩碼（block-causal mask）實現並行多幀訓練，支持鍵值緩存實時推理，兼顧了訓練效率和推理速度。

實驗部分，該模型在標準LIBERO和SimplerEnv-Bridge基準上保持了強大的分佈內性能。在更具挑戰性的LIBERO-Plus和LIBERO-Plus-Hard分佈偏移場景中，反射式VLA相較匹配的反應式基線，平均成功率分別提升了5.4和4.2個百分點。更重要的是，與僅使用歷史動作（不含後果）的對比實驗表明，正是動作後果信息——而非單純的上下文長度增加——推動了跨環境泛化能力的提升。

該研究成果已在arXiv上發佈，項目頁面提供更多細節。這項工作為提升VLA模型在真實機器人控制中的魯棒性提供了新思路。