2026-06-03 12:00 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

一致但錯誤：空間視覺語言模型中的證據不敏感性

研究發現當前最先進的視覺語言模型（VLM）在度量距離查詢中雖然跨視角預測一致，但常出現系統性錯誤，表明模型依賴於先驗知識而非視覺證據。為此，研究者提出ViewDiag基準測試框架，從度量準確性、分佈集中度和潛在特徵探測三個維度評估模型，揭示預測穩定性與準確性脱節的現象。

來源arXiv Computer Vision作者: S Divakar Bhat, Toshihiko Yamasaki

空間推理是機器人導航、自主駕駛和具身人工智能的核心能力。然而，最新的視覺語言模型（VLM）在回答諸如“物體A到物體B的距離是多少”這類度量問題時，往往表現得不可靠。東京大學的S Divakar Bhat和Toshihiko Yamasaki在一項新研究中發現，這些模型雖然在不同視角下給出的預測高度一致，但常常是錯誤的。這意味着模型並沒有真正理解空間幾何，而是依賴於內部的先驗知識來生成看似合理的答案，對視角變化的視覺證據不敏感。

為了系統地診斷這一問題，研究團隊開發了ViewDiag基準測試框架。該框架基於三個公開數據集：Hypersim（室內場景）、ScanNet（室內場景）和KITTI360（室外駕駛場景），從中提取了80個場景中的176個物體對軌跡，每個軌跡包含2到10個不同視角的觀測。ViewDiag從三個維度對模型進行評估：

度量準確性：預測的絕對距離與真實距離的接近程度。
分佈集中度：同一物體對在不同視角下預測的方差，反映預測的穩定性。
潛在特徵探測：通過分析模型內部表徵的幾何結構，判斷預測的穩定性是源於正確的推理（表徵崩潰）還是僅僅是輸出層的固化（決策崩潰）。

研究人員在多個主流VLM上進行了實驗，包括基於CLIP的模型和更近期的多模態大模型。結果揭示了一個令人擔憂的模式：幾乎所有模型都表現出預測的高度穩定性和低準確性並存的現象。即，模型在不同視角下給出的距離估計值變化很小，但這些估計值與真實距離相差甚遠。這種“強一致性、低準確性”的狀態表明，模型並非在進行基於證據的推理，而是陷入了先驗驅動的崩潰（prior-driven collapse），即模型忽略了視角具體的信息，直接輸出一個由訓練數據先驗決定的典型距離值。

這一發現挑戰了研究界長期以來的一個假設：即模型在不同視角下預測的一致性可以視為其具備幾何理解的證據。實際上，一致性可能只是模型“偷懶”的跡象。ViewDiag不僅揭示了這一問題，還提供了一個診斷工具，幫助研究人員區分真正的幾何推理與表面一致的錯誤預測。

該研究的代碼和數據集已在GitHub上開源（github.com/SDivakarBhat/Consistent_Yet_Wrong），論文以編號2606.02742發佈於arXiv。這項工作對於開發真正具備空間理解能力的AI系統具有重要意義，尤其是在安全關鍵的機器人應用中。