2026-05-25 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

视而不见？视觉语言基准真的测试了视觉能力吗？

该研究质疑视觉语言模型（VLM）在基准测试中的高分是否真正反映其视觉理解能力。实验发现，移除大量图像令牌仅轻微降低模型性能，表明模型对细粒度视觉证据的敏感性不足。通过全局退化、局部遮挡、问题改写、答案空间扩展及决策层分析，结合层视觉令牌几何分析，研究者揭示模型预测在内部支持减弱时仍可能保持不变，且视觉令牌在深层中趋于相似。结论是当前基准无法可靠评估VLM的细粒度视觉基础。

来源arXiv Computer Vision作者: Zixuan Lan, Luzhe Sun, Matthew R. Walter, Jiawei Zhou

一篇最近发表在arXiv上的研究论文《Seeing without Looking: Do Vision-Language Benchmarks Really Test Vision?》对当前视觉语言模型（VLM）基准测试的有效性提出了严峻挑战。该研究由Zixuan Lan等人撰写，已被CVPR 2026研讨会GRAIL-V接收。研究团队注意到一个令人惊讶的现象：在广泛使用的幻觉基准测试中，即使移除大量图像令牌（image tokens），模型的性能也仅出现极轻微的下降。这一发现促使他们系统地探究基准测试分数与真实视觉理解之间的脱节。

研究人员对多个开源VLM进行了多层次的精细分析。实验包括全局视觉退化、局部遮挡、问题改写、答案空间扩展，以及超越标准准确率的决策层分析。此外，他们还从表示层面分析了视觉令牌的几何结构，观察其在不同层中的变化。结果发现，尽管VLM确实使用了视觉输入，但其预测对细粒度视觉证据的丢失并不像标准准确率所暗示的那样敏感。即便最终预测保持不变，模型内部对正确答案的支持可能已经减弱。进一步的分析表明，视觉令牌在深层网络中的相似性逐渐增加，这为模型的上述行为提供了一种可能的解释。

这项研究的结论直指当前VLM评估体系的核心问题：现有的基准测试不足以可靠地衡量模型对细粒度视觉信息的真正理解。论文作者呼吁研究社区开发新的评估方法，以更准确地反映VLM的视觉基础能力。该工作不仅为VLM的可靠性敲响警钟，也为未来的模型设计和基准构建提供了重要指导。相关代码和数据已在论文页面上提供链接。