VLADriveBench: 自動運転におけるVLAのCoT-アクション関係の評価
VLADriveBenchは、視覚-言語-行動(VLA)モデルにおけるチェーン・オブ・ソート(CoT)推論が運転軌跡と関連性、一貫性、因果関係を持つかどうかを評価する新しいフレームワークです。観測指標(言及、幻覚、矛盾、行動アライメント)とCoT介入プロトコルを組み合わせています。3つのモデルに適用した結果、観測分析と因果分析が大きく乖離する可能性があることが判明しました。ORIONは観測アライメントで最高スコアを示しましたが、そのCoTは随伴現象であり、一方Alpamayo v1.5はスコアが低いもののCoTは強く因果的であり、視覚的顕著性がCoTの影響の程度を調整していました。
最近、arXivに投稿された論文「VLADriveBench: Evaluating CoT-Action Relationship in VLA for Autonomous Driving」では、自動運転のための視覚-言語-行動(VLA)モデルを評価する新しいフレームワークが提案されました。この論文はThach Nguyenら5名の著者によるもので、2026年6月10日に提出されました。
VLAモデルは、運転軌跡を生成すると同時に、チェーン・オブ・ソート(CoT)推論を出力することがよくあります。しかし、既存のベンチマークは軌跡の品質のみを評価し、CoT推論が運転行動と関連しているか、一貫しているか、因果関係があるかを評価していません。このギャップを埋めるために、研究チームはVLADriveBenchを開発しました。
VLADriveBenchは2つの相補的な分析手法を備えています。1つ目は観測指標で、言及(mentioning、CoTが関連物体や事象に言及しているか)、幻覚(hallucination、存在しない要素を含んでいないか)、矛盾(contradiction、CoTと行動が矛盾していないか)、行動アライメント(action alignment、CoTと行動の方向や速度が一致しているか)を含みます。これらの指標はCoTと行動の表面的な関連を測定します。2つ目はCoT介入プロトコルで、CoTを人為的に摂動(例えば、推論の重要なステップを変更)させ、その行動への影響を観察することで因果関係を評価します。CoTの摂動が行動を有意に変化させれば、CoTには因果的影響力があると判断されます。
研究チームはVLADriveBenchを2つのアーキテクチャにわたる3つのモデル(ORION、Alpamayo v1.5、および別のモデル)に適用しました。その結果、観測分析と因果分析が大きく乖離する可能性があることが判明しました。ORIONモデルは観測アライメントで最高スコアを記録し、CoTと行動が表面的に一致していましたが、介入実験により、そのCoTは実際には随伴現象(epiphenomenal)であり、運転判断に実質的な影響を与えないことが示されました。対照的に、Alpamayo v1.5の観測アライメントスコアは低かったものの、そのCoTは強い因果性を示し、CoTの摂動が行動を有意に変化させました。さらに分析を進めると、視覚的顕著性(visual salience)が調整役を果たしていることが分かりました。すなわち、モデルが画像内の顕著な領域に注目しているほど、CoTが行動に与える影響が大きくなるのです。
この研究は、VLAモデルを評価する際に観測指標だけに頼るのではなく、CoTの因果的貢献を考慮することの重要性を強調しています。VLADriveBenchは、将来のより信頼性が高く解釈可能な自動運転システムのための重要な評価ツールとガイダンスを提供します。研究者らは、新しいモデルを開発する際には、観測分析と因果分析の両方を実施し、CoT推論が単なる事後説明ではなく、実際に意思決定プロセスに貢献していることを確認すべきだと提案しています。