2026-06-25 13:00 UTC+9サイト内リライト2 分で読了更新: 2026-06-25 17:03 UTC+9

Reflective VLA: コンテキスト内の行動結果がVLAの汎化を促進する

ほとんどのVLAモデルはリアクティブであり、現在の観測からのみ次の行動を予測するため、環境変化に弱い。本論文では、観測-行動-結果のトリプレットをコンテキストとして利用するReflective VLAを提案。分布シフト下で成功率が5.4ポイント向上し、行動結果が汎化の鍵であることを示した。

ソースarXiv Computer Vision著者: Qing Lian, Kent Yu, Lei Zhang

コンピュータビジョンとロボティクスの交差点において、視覚-言語-行動（VLA）モデルへの関心が高まっている。しかし、既存のほとんどのVLAモデルは本質的に受動的であり、現在の観測と指示のみから次の行動を予測し、現在の観測が行動関連の状態を完全に特定していると暗に仮定する。このような反応型設計は、カメラとロボットの幾何学的関係、キャリブレーション誤差、系統的な動作バイアスなど、単一の観測からは特定が難しい要因が多い実環境での展開において課題に直面する。その結果、モデルは訓練環境に過適合し、分布変化時の汎化性能が低下する。

この限界を克服するため、Qing LianらはReflective VLAを提案した。本モデルは、観測-行動-結果のトリプレットからなるコンテキストに基づいて各決定を条件付ける。各トリプレットは、ロボットが何を観測し、どのような行動を実行したかだけでなく、その後のシーンの変化も記録し、展開環境固有の行動-効果マッピングを明らかにする。

アーキテクチャ的には、Reflective VLAはすべての観測モダリティを共有注意機構を持つ視覚言語モデル（VLM）を介して処理し、行動専門家が過去のトリプレットと現在の観測を直接推論できるようにする。ブロック因果マスクにより、リークなしの並列マルチフレーム訓練が可能となり、KVキャッシュによるリアルタイム推論をサポートする。

実験では、標準的なLIBEROおよびSimplerEnv-Bridgeベンチマークにおいて、分布内性能を維持しつつ、分布シフトのあるLIBERO-Plusおよびより難しいLIBERO-Plus-Hardでは、一致する反応型ベースラインと比較して平均成功率がそれぞれ5.4パーセントポイントおよび4.2パーセントポイント向上した。さらに、履歴のみのベースラインとのアブレーションにより、追加のコンテキスト長ではなく、行動結果が環境間の汎化の鍵であることが示された。

本研究はarXivで公開され、プロジェクトページで詳細が提供されている。この成果は、実ロボット制御におけるVLAモデルのロバスト性向上に新たな道を開くものである。