AI News HubLIVE
站内改写2 分钟阅读

一致但错误:空间视觉语言模型中的证据不敏感性

研究发现当前最先进的视觉语言模型(VLM)在度量距离查询中虽然跨视角预测一致,但常出现系统性错误,表明模型依赖于先验知识而非视觉证据。为此,研究者提出ViewDiag基准测试框架,从度量准确性、分布集中度和潜在特征探测三个维度评估模型,揭示预测稳定性与准确性脱节的现象。

来源arXiv Computer Vision作者: S Divakar Bhat, Toshihiko Yamasaki

空间推理是机器人导航、自主驾驶和具身人工智能的核心能力。然而,最新的视觉语言模型(VLM)在回答诸如“物体A到物体B的距离是多少”这类度量问题时,往往表现得不可靠。东京大学的S Divakar Bhat和Toshihiko Yamasaki在一项新研究中发现,这些模型虽然在不同视角下给出的预测高度一致,但常常是错误的。这意味着模型并没有真正理解空间几何,而是依赖于内部的先验知识来生成看似合理的答案,对视角变化的视觉证据不敏感。

为了系统地诊断这一问题,研究团队开发了ViewDiag基准测试框架。该框架基于三个公开数据集:Hypersim(室内场景)、ScanNet(室内场景)和KITTI360(室外驾驶场景),从中提取了80个场景中的176个物体对轨迹,每个轨迹包含2到10个不同视角的观测。ViewDiag从三个维度对模型进行评估:

  • 度量准确性:预测的绝对距离与真实距离的接近程度。
  • 分布集中度:同一物体对在不同视角下预测的方差,反映预测的稳定性。
  • 潜在特征探测:通过分析模型内部表征的几何结构,判断预测的稳定性是源于正确的推理(表征崩溃)还是仅仅是输出层的固化(决策崩溃)。

研究人员在多个主流VLM上进行了实验,包括基于CLIP的模型和更近期的多模态大模型。结果揭示了一个令人担忧的模式:几乎所有模型都表现出预测的高度稳定性和低准确性并存的现象。即,模型在不同视角下给出的距离估计值变化很小,但这些估计值与真实距离相差甚远。这种“强一致性、低准确性”的状态表明,模型并非在进行基于证据的推理,而是陷入了先验驱动的崩溃(prior-driven collapse),即模型忽略了视角具体的信息,直接输出一个由训练数据先验决定的典型距离值。

这一发现挑战了研究界长期以来的一个假设:即模型在不同视角下预测的一致性可以视为其具备几何理解的证据。实际上,一致性可能只是模型“偷懒”的迹象。ViewDiag不仅揭示了这一问题,还提供了一个诊断工具,帮助研究人员区分真正的几何推理与表面一致的错误预测。

该研究的代码和数据集已在GitHub上开源(github.com/SDivakarBhat/Consistent_Yet_Wrong),论文以编号2606.02742发布于arXiv。这项工作对于开发真正具备空间理解能力的AI系统具有重要意义,尤其是在安全关键的机器人应用中。