AI News HubLIVE
站内改写2 分鐘閱讀

VLADriveBench: 評估自動駕駛VLA中的思維鏈與行動關係

VLADriveBench是一個新框架,用於評估視覺-語言-行動(VLA)模型中思維鏈(CoT)推理與駕駛軌跡之間的相關性、一致性和因果關係。它結合了觀測指標(提及、幻覺、矛盾、行動對齊)和CoT干預協議。應用於三個模型後,發現觀測分析與因果分析可能截然不同:ORION在觀測對齊上得分最高,但其CoT是附帶現象;而Alpamayo v1.5得分較低,但其CoT具有很強的因果性,視覺顯著性調節了CoT的影響程度。

來源arXiv Computer Vision作者: Thach Nguyen, Danhua Guo, Tom Lampo, Fei Wu, Burhan Yaman

近日,一篇題為《VLADriveBench: Evaluating CoT-Action Relationship in VLA for Autonomous Driving》的論文在arXiv上發表,提出了一個評估自動駕駛中視覺-語言-行動(VLA)模型的新框架。該論文由Thach Nguyen等五位作者共同完成,於2026年6月10日提交。

VLA模型在生成駕駛軌跡的同時,通常會輸出鏈式思維(Chain-of-Thought, CoT)推理,用於解釋其決策過程。然而,現有的基準測試僅關注軌跡的準確性、平滑性等質量指標,並未評估CoT推理是否與實際的駕駛行動相關、一致或具有因果關係。這一缺失可能導致對模型能力的誤判,因為一個模型可能生成合理的軌跡,但其CoT推理卻與決策過程無關甚至矛盾。

為了填補這一空白,研究團隊提出了VLADriveBench,一個專門評估CoT與行動關係的框架。VLADriveBench包含兩種互補的分析方法。第一種是觀測指標,包括提及(mentioning,即CoT是否提及相關物體或事件)、幻覺(hallucination,即CoT是否包含不存在的元素)、矛盾(contradiction,即CoT與行動是否衝突)和行動對齊(action alignment,即CoT與行動在方向、速度上是否吻合)。這些指標衡量CoT與行動的表面關聯。第二種是CoT干預協議,透過人為擾動CoT(例如,修改推理中的關鍵步驟)並觀察行動的變化,從而評估因果關係。如果擾動CoT導致行動顯著改變,則說明CoT具有因果影響力。

研究團隊將VLADriveBench應用於兩個架構下的三個模型:ORION、Alpamayo v1.5以及另一個未具名模型。結果揭示了觀測分析和因果分析之間的驚人差異。ORION模型在觀測對齊上得分最高,其CoT與行動表面一致,但干預實驗表明,其CoT實際上是附帶現象(epiphenomenal),對駕駛決策沒有實質影響。相反,Alpamayo v1.5的觀測對齊得分較低,但其CoT具有很強的因果性:擾動CoT會顯著改變行動。進一步分析發現,視覺顯著性(visual salience)起到了調節作用——當模型更關注影像中的顯著區域時,CoT對行動的影響更大。

這項研究強調了評估VLA模型時不能僅依賴觀測指標,而必須考慮CoT的因果貢獻。VLADriveBench為未來更可靠、可解釋的自動駕駛系統提供了重要的評測工具和指導。研究人員建議,在開發新模型時,應同時進行觀測和因果分析,以確保CoT推理真正服務於決策過程,而非僅僅是事後解釋。