幻象探針:視覺模型如何偽造視覺理解
視覺語言模型可在無圖像時正確回答圖像問題,虛增基準分數。研究將其分為文本偏見和虛假圖像兩類,並提出幻象探針框架和PHI指數區分它們。
視覺語言模型(VLM)近年來在圖像問答等任務上表現驚豔,但一項新研究揭示了一個令人擔憂的現象:這些模型即使在沒有輸入圖像的情況下,也能自信且常常正確地回答圖像相關問題。這種被稱為“幻象行為”的現象虛報了模型的實際視覺理解能力,導致基準測試分數無法反映真實表現。來自多所機構的研究團隊在論文《Mirage Probes: How Vision Models Fake Visual Understanding》中,系統分析了這一問題,並提出了區分兩種不同幻象機制的方法。
以往研究通常將幻象視為單一故障模式,但該團隊認為這實際上是兩種不同機制的結果。他們設計了一種名為“幻象探針”的對比探針框架,通過為同一圖像配對的釋義問題變體分配匹配的幻象和非幻象標籤,揭示了幻象行為可以從兩個開源VLM的內部激活中線性解碼,涉及殘差流、MLP、注意力後和注意力頭等多個位置。更重要的是,一種簡單的樸素貝葉斯文本基線無法恢復這一信號,排除了表層詞彙混淆的可能性。
為了進一步量化模型對文本先驗的依賴程度,研究者提出了“先驗利用指數”(PHI)。該指數測量模型僅從文本中就能回答問題的程度。結合跨基準的可分離模式,他們識別出兩種截然不同的幻象模式:文本偏見模式中,模型主要依賴語言先驗而非視覺表示來回答問題;虛假圖像模式中,模型在潛在空間構建了錯誤的視覺內容,並彷彿基於這些內容進行回答。
這一區分具有直接的實際意義。文本分佈清洗(例如去除不恰當的語言線索)可以緩解第一類幻象,但無法觸及第二類——因為虛假圖像幻象存在於模型的視覺表示中,而非文本中。研究結論指出,要實現真正可靠的視覺理解,未來的模型需要在表徵層面進行干預,例如改進視覺編碼或強制模型進行多模態校驗。該工作不僅揭示了VLM幻象行為的深層結構,還為開發更穩健的視覺系統提供了方向。