2026-05-25 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

視而不見？視覺語言基準真的測試了視覺能力嗎？

該研究質疑視覺語言模型（VLM）在基準測試中的高分是否真正反映其視覺理解能力。實驗發現，移除大量圖像令牌僅輕微降低模型性能，表明模型對細粒度視覺證據的敏感性不足。通過全局退化、局部遮擋、問題改寫、答案空間擴展及決策層分析，結合層視覺令牌幾何分析，研究者揭示模型預測在內部支持減弱時仍可能保持不變，且視覺令牌在深層中趨於相似。結論是當前基準無法可靠評估VLM的細粒度視覺基礎。

來源arXiv Computer Vision作者: Zixuan Lan, Luzhe Sun, Matthew R. Walter, Jiawei Zhou

一篇最近發表在arXiv上的研究論文《Seeing without Looking: Do Vision-Language Benchmarks Really Test Vision?》對當前視覺語言模型（VLM）基準測試的有效性提出了嚴峻挑戰。該研究由Zixuan Lan等人撰寫，已被CVPR 2026研討會GRAIL-V接收。研究團隊注意到一個令人驚訝的現象：在廣泛使用的幻覺基準測試中，即使移除大量圖像令牌（image tokens），模型的性能也僅出現極輕微的下降。這一發現促使他們系統地探究基準測試分數與真實視覺理解之間的脱節。

研究人員對多個開源VLM進行了多層次的精細分析。實驗包括全局視覺退化、局部遮擋、問題改寫、答案空間擴展，以及超越標準準確率的決策層分析。此外，他們還從表示層面分析了視覺令牌的幾何結構，觀察其在不同層中的變化。結果發現，儘管VLM確實使用了視覺輸入，但其預測對細粒度視覺證據的丟失並不像標準準確率所暗示的那樣敏感。即便最終預測保持不變，模型內部對正確答案的支持可能已經減弱。進一步的分析表明，視覺令牌在深層網絡中的相似性逐漸增加，這為模型的上述行為提供了一種可能的解釋。

這項研究的結論直指當前VLM評估體系的核心問題：現有的基準測試不足以可靠地衡量模型對細粒度視覺信息的真正理解。論文作者呼籲研究社區開發新的評估方法，以更準確地反映VLM的視覺基礎能力。該工作不僅為VLM的可靠性敲響警鐘，也為未來的模型設計和基準構建提供了重要指導。相關代碼和數據已在論文頁面上提供鏈接。