2026-06-03 12:00 UTC+8站内改写2 分钟阅读更新: 2026-06-30 21:03 UTC+8

一致但错误：空间视觉语言模型中的证据不敏感性

研究发现当前最先进的视觉语言模型（VLM）在度量距离查询中虽然跨视角预测一致，但常出现系统性错误，表明模型依赖于先验知识而非视觉证据。为此，研究者提出ViewDiag基准测试框架，从度量准确性、分布集中度和潜在特征探测三个维度评估模型，揭示预测稳定性与准确性脱节的现象。

来源arXiv Computer Vision作者: S Divakar Bhat, Toshihiko Yamasaki

空间推理是机器人导航、自主驾驶和具身人工智能的核心能力。然而，最新的视觉语言模型（VLM）在回答诸如“物体A到物体B的距离是多少”这类度量问题时，往往表现得不可靠。东京大学的S Divakar Bhat和Toshihiko Yamasaki在一项新研究中发现，这些模型虽然在不同视角下给出的预测高度一致，但常常是错误的。这意味着模型并没有真正理解空间几何，而是依赖于内部的先验知识来生成看似合理的答案，对视角变化的视觉证据不敏感。

为了系统地诊断这一问题，研究团队开发了ViewDiag基准测试框架。该框架基于三个公开数据集：Hypersim（室内场景）、ScanNet（室内场景）和KITTI360（室外驾驶场景），从中提取了80个场景中的176个物体对轨迹，每个轨迹包含2到10个不同视角的观测。ViewDiag从三个维度对模型进行评估：

度量准确性：预测的绝对距离与真实距离的接近程度。
分布集中度：同一物体对在不同视角下预测的方差，反映预测的稳定性。
潜在特征探测：通过分析模型内部表征的几何结构，判断预测的稳定性是源于正确的推理（表征崩溃）还是仅仅是输出层的固化（决策崩溃）。

研究人员在多个主流VLM上进行了实验，包括基于CLIP的模型和更近期的多模态大模型。结果揭示了一个令人担忧的模式：几乎所有模型都表现出预测的高度稳定性和低准确性并存的现象。即，模型在不同视角下给出的距离估计值变化很小，但这些估计值与真实距离相差甚远。这种“强一致性、低准确性”的状态表明，模型并非在进行基于证据的推理，而是陷入了先验驱动的崩溃（prior-driven collapse），即模型忽略了视角具体的信息，直接输出一个由训练数据先验决定的典型距离值。

这一发现挑战了研究界长期以来的一个假设：即模型在不同视角下预测的一致性可以视为其具备几何理解的证据。实际上，一致性可能只是模型“偷懒”的迹象。ViewDiag不仅揭示了这一问题，还提供了一个诊断工具，帮助研究人员区分真正的几何推理与表面一致的错误预测。

该研究的代码和数据集已在GitHub上开源（github.com/SDivakarBhat/Consistent_Yet_Wrong），论文以编号2606.02742发布于arXiv。这项工作对于开发真正具备空间理解能力的AI系统具有重要意义，尤其是在安全关键的机器人应用中。