2026-06-12站内改写2 分钟阅读更新: 2026-06-12

VLADriveBench: 评估自动驾驶VLA中的思维链与行动关系

VLADriveBench是一个新框架，用于评估视觉-语言-行动（VLA）模型中思维链（CoT）推理与驾驶轨迹之间的相关性、一致性和因果关系。它结合了观测指标（提及、幻觉、矛盾、行动对齐）和CoT干预协议。应用于三个模型后，发现观测分析与因果分析可能截然不同：ORION在观测对齐上得分最高，但其CoT是附带现象；而Alpamayo v1.5得分较低，但其CoT具有很强的因果性，视觉显著性调节了CoT的影响程度。

来源arXiv Computer Vision作者: Thach Nguyen, Danhua Guo, Tom Lampo, Fei Wu, Burhan Yaman

近日，一篇题为《VLADriveBench: Evaluating CoT-Action Relationship in VLA for Autonomous Driving》的论文在arXiv上发表，提出了一个评估自动驾驶中视觉-语言-行动（VLA）模型的新框架。该论文由Thach Nguyen等五位作者共同完成，于2026年6月10日提交。

VLA模型在生成驾驶轨迹的同时，通常会输出链式思维（Chain-of-Thought, CoT）推理，用于解释其决策过程。然而，现有的基准测试仅关注轨迹的准确性、平滑性等质量指标，并未评估CoT推理是否与实际的驾驶行动相关、一致或具有因果关系。这一缺失可能导致对模型能力的误判，因为一个模型可能生成合理的轨迹，但其CoT推理却与决策过程无关甚至矛盾。

为了填补这一空白，研究团队提出了VLADriveBench，一个专门评估CoT与行动关系的框架。VLADriveBench包含两种互补的分析方法。第一种是观测指标，包括提及（mentioning，即CoT是否提及相关物体或事件）、幻觉（hallucination，即CoT是否包含不存在的元素）、矛盾（contradiction，即CoT与行动是否冲突）和行动对齐（action alignment，即CoT与行动在方向、速度上是否吻合）。这些指标衡量CoT与行动的表面关联。第二种是CoT干预协议，通过人为扰动CoT（例如，修改推理中的关键步骤）并观察行动的变化，从而评估因果关系。如果扰动CoT导致行动显著改变，则说明CoT具有因果影响力。

研究团队将VLADriveBench应用于两个架构下的三个模型：ORION、Alpamayo v1.5以及另一个未具名模型。结果揭示了观测分析和因果分析之间的惊人差异。ORION模型在观测对齐上得分最高，其CoT与行动表面一致，但干预实验表明，其CoT实际上是附带现象（epiphenomenal），对驾驶决策没有实质影响。相反，Alpamayo v1.5的观测对齐得分较低，但其CoT具有很强的因果性：扰动CoT会显著改变行动。进一步分析发现，视觉显著性（visual salience）起到了调节作用——当模型更关注图像中的显著区域时，CoT对行动的影响更大。

这项研究强调了评估VLA模型时不能仅依赖观测指标，而必须考虑CoT的因果贡献。VLADriveBench为未来更可靠、可解释的自动驾驶系统提供了重要的评测工具和指导。研究人员建议，在开发新模型时，应同时进行观测和因果分析，以确保CoT推理真正服务于决策过程，而非仅仅是事后解释。