2026-06-12站内改写2 分鐘閱讀更新: 2026-06-12

VLADriveBench: 評估自動駕駛VLA中的思維鏈與行動關係

VLADriveBench是一個新框架，用於評估視覺-語言-行動（VLA）模型中思維鏈（CoT）推理與駕駛軌跡之間的相關性、一致性和因果關係。它結合了觀測指標（提及、幻覺、矛盾、行動對齊）和CoT干預協議。應用於三個模型後，發現觀測分析與因果分析可能截然不同：ORION在觀測對齊上得分最高，但其CoT是附帶現象；而Alpamayo v1.5得分較低，但其CoT具有很強的因果性，視覺顯著性調節了CoT的影響程度。

來源arXiv Computer Vision作者: Thach Nguyen, Danhua Guo, Tom Lampo, Fei Wu, Burhan Yaman

近日，一篇題為《VLADriveBench: Evaluating CoT-Action Relationship in VLA for Autonomous Driving》的論文在arXiv上發表，提出了一個評估自動駕駛中視覺-語言-行動（VLA）模型的新框架。該論文由Thach Nguyen等五位作者共同完成，於2026年6月10日提交。

VLA模型在生成駕駛軌跡的同時，通常會輸出鏈式思維（Chain-of-Thought, CoT）推理，用於解釋其決策過程。然而，現有的基準測試僅關注軌跡的準確性、平滑性等質量指標，並未評估CoT推理是否與實際的駕駛行動相關、一致或具有因果關係。這一缺失可能導致對模型能力的誤判，因為一個模型可能生成合理的軌跡，但其CoT推理卻與決策過程無關甚至矛盾。

為了填補這一空白，研究團隊提出了VLADriveBench，一個專門評估CoT與行動關係的框架。VLADriveBench包含兩種互補的分析方法。第一種是觀測指標，包括提及（mentioning，即CoT是否提及相關物體或事件）、幻覺（hallucination，即CoT是否包含不存在的元素）、矛盾（contradiction，即CoT與行動是否衝突）和行動對齊（action alignment，即CoT與行動在方向、速度上是否吻合）。這些指標衡量CoT與行動的表面關聯。第二種是CoT干預協議，透過人為擾動CoT（例如，修改推理中的關鍵步驟）並觀察行動的變化，從而評估因果關係。如果擾動CoT導致行動顯著改變，則說明CoT具有因果影響力。

研究團隊將VLADriveBench應用於兩個架構下的三個模型：ORION、Alpamayo v1.5以及另一個未具名模型。結果揭示了觀測分析和因果分析之間的驚人差異。ORION模型在觀測對齊上得分最高，其CoT與行動表面一致，但干預實驗表明，其CoT實際上是附帶現象（epiphenomenal），對駕駛決策沒有實質影響。相反，Alpamayo v1.5的觀測對齊得分較低，但其CoT具有很強的因果性：擾動CoT會顯著改變行動。進一步分析發現，視覺顯著性（visual salience）起到了調節作用——當模型更關注影像中的顯著區域時，CoT對行動的影響更大。

這項研究強調了評估VLA模型時不能僅依賴觀測指標，而必須考慮CoT的因果貢獻。VLADriveBench為未來更可靠、可解釋的自動駕駛系統提供了重要的評測工具和指導。研究人員建議，在開發新模型時，應同時進行觀測和因果分析，以確保CoT推理真正服務於決策過程，而非僅僅是事後解釋。