2026-06-15站内改写1 分鐘閱讀更新: 2026-06-15

幻象探針：視覺模型如何偽造視覺理解

視覺語言模型可在無圖像時正確回答圖像問題，虛增基準分數。研究將其分為文本偏見和虛假圖像兩類，並提出幻象探針框架和PHI指數區分它們。

來源arXiv Computer Vision作者: Daniel Ben-Levi, Judah Goldfeder, Weiliang Zhao, Raz Lapid, Amit LeVi, Allen G. Roush, Ravid Shwartz-Ziv, Hod Lipson

視覺語言模型（VLM）近年來在圖像問答等任務上表現驚豔，但一項新研究揭示了一個令人擔憂的現象：這些模型即使在沒有輸入圖像的情況下，也能自信且常常正確地回答圖像相關問題。這種被稱為“幻象行為”的現象虛報了模型的實際視覺理解能力，導致基準測試分數無法反映真實表現。來自多所機構的研究團隊在論文《Mirage Probes: How Vision Models Fake Visual Understanding》中，系統分析了這一問題，並提出了區分兩種不同幻象機制的方法。

以往研究通常將幻象視為單一故障模式，但該團隊認為這實際上是兩種不同機制的結果。他們設計了一種名為“幻象探針”的對比探針框架，通過為同一圖像配對的釋義問題變體分配匹配的幻象和非幻象標籤，揭示了幻象行為可以從兩個開源VLM的內部激活中線性解碼，涉及殘差流、MLP、注意力後和注意力頭等多個位置。更重要的是，一種簡單的樸素貝葉斯文本基線無法恢復這一信號，排除了表層詞彙混淆的可能性。

為了進一步量化模型對文本先驗的依賴程度，研究者提出了“先驗利用指數”（PHI）。該指數測量模型僅從文本中就能回答問題的程度。結合跨基準的可分離模式，他們識別出兩種截然不同的幻象模式：文本偏見模式中，模型主要依賴語言先驗而非視覺表示來回答問題；虛假圖像模式中，模型在潛在空間構建了錯誤的視覺內容，並彷彿基於這些內容進行回答。

這一區分具有直接的實際意義。文本分佈清洗（例如去除不恰當的語言線索）可以緩解第一類幻象，但無法觸及第二類——因為虛假圖像幻象存在於模型的視覺表示中，而非文本中。研究結論指出，要實現真正可靠的視覺理解，未來的模型需要在表徵層面進行干預，例如改進視覺編碼或強制模型進行多模態校驗。該工作不僅揭示了VLM幻象行為的深層結構，還為開發更穩健的視覺系統提供了方向。