VLADriveBench: 评估自动驾驶VLA中的思维链与行动关系
VLADriveBench是一个新框架,用于评估视觉-语言-行动(VLA)模型中思维链(CoT)推理与驾驶轨迹之间的相关性、一致性和因果关系。它结合了观测指标(提及、幻觉、矛盾、行动对齐)和CoT干预协议。应用于三个模型后,发现观测分析与因果分析可能截然不同:ORION在观测对齐上得分最高,但其CoT是附带现象;而Alpamayo v1.5得分较低,但其CoT具有很强的因果性,视觉显著性调节了CoT的影响程度。
近日,一篇题为《VLADriveBench: Evaluating CoT-Action Relationship in VLA for Autonomous Driving》的论文在arXiv上发表,提出了一个评估自动驾驶中视觉-语言-行动(VLA)模型的新框架。该论文由Thach Nguyen等五位作者共同完成,于2026年6月10日提交。
VLA模型在生成驾驶轨迹的同时,通常会输出链式思维(Chain-of-Thought, CoT)推理,用于解释其决策过程。然而,现有的基准测试仅关注轨迹的准确性、平滑性等质量指标,并未评估CoT推理是否与实际的驾驶行动相关、一致或具有因果关系。这一缺失可能导致对模型能力的误判,因为一个模型可能生成合理的轨迹,但其CoT推理却与决策过程无关甚至矛盾。
为了填补这一空白,研究团队提出了VLADriveBench,一个专门评估CoT与行动关系的框架。VLADriveBench包含两种互补的分析方法。第一种是观测指标,包括提及(mentioning,即CoT是否提及相关物体或事件)、幻觉(hallucination,即CoT是否包含不存在的元素)、矛盾(contradiction,即CoT与行动是否冲突)和行动对齐(action alignment,即CoT与行动在方向、速度上是否吻合)。这些指标衡量CoT与行动的表面关联。第二种是CoT干预协议,通过人为扰动CoT(例如,修改推理中的关键步骤)并观察行动的变化,从而评估因果关系。如果扰动CoT导致行动显著改变,则说明CoT具有因果影响力。
研究团队将VLADriveBench应用于两个架构下的三个模型:ORION、Alpamayo v1.5以及另一个未具名模型。结果揭示了观测分析和因果分析之间的惊人差异。ORION模型在观测对齐上得分最高,其CoT与行动表面一致,但干预实验表明,其CoT实际上是附带现象(epiphenomenal),对驾驶决策没有实质影响。相反,Alpamayo v1.5的观测对齐得分较低,但其CoT具有很强的因果性:扰动CoT会显著改变行动。进一步分析发现,视觉显著性(visual salience)起到了调节作用——当模型更关注图像中的显著区域时,CoT对行动的影响更大。
这项研究强调了评估VLA模型时不能仅依赖观测指标,而必须考虑CoT的因果贡献。VLADriveBench为未来更可靠、可解释的自动驾驶系统提供了重要的评测工具和指导。研究人员建议,在开发新模型时,应同时进行观测和因果分析,以确保CoT推理真正服务于决策过程,而非仅仅是事后解释。