AI News HubLIVE
站内改写1 分钟阅读

幻象探针:视觉模型如何伪造视觉理解

视觉语言模型可在无图像时正确回答图像问题,虚增基准分数。研究将其分为文本偏见和虚假图像两类,并提出幻象探针框架和PHI指数区分它们。

来源arXiv Computer Vision作者: Daniel Ben-Levi, Judah Goldfeder, Weiliang Zhao, Raz Lapid, Amit LeVi, Allen G. Roush, Ravid Shwartz-Ziv, Hod Lipson

视觉语言模型(VLM)近年来在图像问答等任务上表现惊艳,但一项新研究揭示了一个令人担忧的现象:这些模型即使在没有输入图像的情况下,也能自信且常常正确地回答图像相关问题。这种被称为“幻象行为”的现象虚报了模型的实际视觉理解能力,导致基准测试分数无法反映真实表现。来自多所机构的研究团队在论文《Mirage Probes: How Vision Models Fake Visual Understanding》中,系统分析了这一问题,并提出了区分两种不同幻象机制的方法。

以往研究通常将幻象视为单一故障模式,但该团队认为这实际上是两种不同机制的结果。他们设计了一种名为“幻象探针”的对比探针框架,通过为同一图像配对的释义问题变体分配匹配的幻象和非幻象标签,揭示了幻象行为可以从两个开源VLM的内部激活中线性解码,涉及残差流、MLP、注意力后和注意力头等多个位置。更重要的是,一种简单的朴素贝叶斯文本基线无法恢复这一信号,排除了表层词汇混淆的可能性。

为了进一步量化模型对文本先验的依赖程度,研究者提出了“先验利用指数”(PHI)。该指数测量模型仅从文本中就能回答问题的程度。结合跨基准的可分离模式,他们识别出两种截然不同的幻象模式:文本偏见模式中,模型主要依赖语言先验而非视觉表示来回答问题;虚假图像模式中,模型在潜在空间构建了错误的视觉内容,并仿佛基于这些内容进行回答。

这一区分具有直接的实际意义。文本分布清洗(例如去除不恰当的语言线索)可以缓解第一类幻象,但无法触及第二类——因为虚假图像幻象存在于模型的视觉表示中,而非文本中。研究结论指出,要实现真正可靠的视觉理解,未来的模型需要在表征层面进行干预,例如改进视觉编码或强制模型进行多模态校验。该工作不仅揭示了VLM幻象行为的深层结构,还为开发更稳健的视觉系统提供了方向。