一致但錯誤:空間視覺語言模型中的證據不敏感性
研究發現當前最先進的視覺語言模型(VLM)在度量距離查詢中雖然跨視角預測一致,但常出現系統性錯誤,表明模型依賴於先驗知識而非視覺證據。為此,研究者提出ViewDiag基準測試框架,從度量準確性、分佈集中度和潛在特徵探測三個維度評估模型,揭示預測穩定性與準確性脱節的現象。
空間推理是機器人導航、自主駕駛和具身人工智能的核心能力。然而,最新的視覺語言模型(VLM)在回答諸如“物體A到物體B的距離是多少”這類度量問題時,往往表現得不可靠。東京大學的S Divakar Bhat和Toshihiko Yamasaki在一項新研究中發現,這些模型雖然在不同視角下給出的預測高度一致,但常常是錯誤的。這意味着模型並沒有真正理解空間幾何,而是依賴於內部的先驗知識來生成看似合理的答案,對視角變化的視覺證據不敏感。
為了系統地診斷這一問題,研究團隊開發了ViewDiag基準測試框架。該框架基於三個公開數據集:Hypersim(室內場景)、ScanNet(室內場景)和KITTI360(室外駕駛場景),從中提取了80個場景中的176個物體對軌跡,每個軌跡包含2到10個不同視角的觀測。ViewDiag從三個維度對模型進行評估:
- 度量準確性:預測的絕對距離與真實距離的接近程度。
- 分佈集中度:同一物體對在不同視角下預測的方差,反映預測的穩定性。
- 潛在特徵探測:通過分析模型內部表徵的幾何結構,判斷預測的穩定性是源於正確的推理(表徵崩潰)還是僅僅是輸出層的固化(決策崩潰)。
研究人員在多個主流VLM上進行了實驗,包括基於CLIP的模型和更近期的多模態大模型。結果揭示了一個令人擔憂的模式:幾乎所有模型都表現出預測的高度穩定性和低準確性並存的現象。即,模型在不同視角下給出的距離估計值變化很小,但這些估計值與真實距離相差甚遠。這種“強一致性、低準確性”的狀態表明,模型並非在進行基於證據的推理,而是陷入了先驗驅動的崩潰(prior-driven collapse),即模型忽略了視角具體的信息,直接輸出一個由訓練數據先驗決定的典型距離值。
這一發現挑戰了研究界長期以來的一個假設:即模型在不同視角下預測的一致性可以視為其具備幾何理解的證據。實際上,一致性可能只是模型“偷懶”的跡象。ViewDiag不僅揭示了這一問題,還提供了一個診斷工具,幫助研究人員區分真正的幾何推理與表面一致的錯誤預測。
該研究的代碼和數據集已在GitHub上開源(github.com/SDivakarBhat/Consistent_Yet_Wrong),論文以編號2606.02742發佈於arXiv。這項工作對於開發真正具備空間理解能力的AI系統具有重要意義,尤其是在安全關鍵的機器人應用中。