2026-06-15站内改写1 分钟阅读更新: 2026-06-15

幻象探针：视觉模型如何伪造视觉理解

视觉语言模型可在无图像时正确回答图像问题，虚增基准分数。研究将其分为文本偏见和虚假图像两类，并提出幻象探针框架和PHI指数区分它们。

来源arXiv Computer Vision作者: Daniel Ben-Levi, Judah Goldfeder, Weiliang Zhao, Raz Lapid, Amit LeVi, Allen G. Roush, Ravid Shwartz-Ziv, Hod Lipson

视觉语言模型（VLM）近年来在图像问答等任务上表现惊艳，但一项新研究揭示了一个令人担忧的现象：这些模型即使在没有输入图像的情况下，也能自信且常常正确地回答图像相关问题。这种被称为“幻象行为”的现象虚报了模型的实际视觉理解能力，导致基准测试分数无法反映真实表现。来自多所机构的研究团队在论文《Mirage Probes: How Vision Models Fake Visual Understanding》中，系统分析了这一问题，并提出了区分两种不同幻象机制的方法。

以往研究通常将幻象视为单一故障模式，但该团队认为这实际上是两种不同机制的结果。他们设计了一种名为“幻象探针”的对比探针框架，通过为同一图像配对的释义问题变体分配匹配的幻象和非幻象标签，揭示了幻象行为可以从两个开源VLM的内部激活中线性解码，涉及残差流、MLP、注意力后和注意力头等多个位置。更重要的是，一种简单的朴素贝叶斯文本基线无法恢复这一信号，排除了表层词汇混淆的可能性。

为了进一步量化模型对文本先验的依赖程度，研究者提出了“先验利用指数”（PHI）。该指数测量模型仅从文本中就能回答问题的程度。结合跨基准的可分离模式，他们识别出两种截然不同的幻象模式：文本偏见模式中，模型主要依赖语言先验而非视觉表示来回答问题；虚假图像模式中，模型在潜在空间构建了错误的视觉内容，并仿佛基于这些内容进行回答。

这一区分具有直接的实际意义。文本分布清洗（例如去除不恰当的语言线索）可以缓解第一类幻象，但无法触及第二类——因为虚假图像幻象存在于模型的视觉表示中，而非文本中。研究结论指出，要实现真正可靠的视觉理解，未来的模型需要在表征层面进行干预，例如改进视觉编码或强制模型进行多模态校验。该工作不仅揭示了VLM幻象行为的深层结构，还为开发更稳健的视觉系统提供了方向。