2026-06-12站内改写1 分鐘閱讀更新: 2026-06-12

SalArt-VQA：診斷視覺語言模型是否理解生成影像中的顯著偽影

SalArt-VQA是一個用於評估視覺語言模型（VLM）對AI生成影像中偽影的細粒度理解能力的診斷基準。它包含950張影像和3681個人工編寫的多選題，覆蓋存在檢測、語義定位、空間定位和基於證據的缺陷識別。透過對20個VLM的測試，該基準揭示了影像級檢測準確性所隱藏的失敗模式，例如最強模型在偽影影像上的檢測召回率達到99.37%，但僅有53.26%的影像能正確回答所有四個偽影相關問題，表明高檢測準確率並不等同於真正的偽影理解。

來源arXiv Computer Vision作者: Xiaoxiao Sun, Ruotian Zhang, Junzhe Huang, James Burgess, Serena Yeung-Levy

視覺語言模型（VLM）越來越多地被應用於檢測AI生成影像中是否存在可見偽影，然而，這些模型分析偽影的能力仍然在很大程度上未被探索。一個正確的影像級決策可能掩蓋重要的失敗：模型可能正確標記了偽影，但依賴於錯誤的視覺線索，選擇了錯誤的區域，或者描述了影像中不存在的缺陷。為了直接評估這些行為，研究人員引入了SalArt-VQA，這是一個針對AI生成影像中細粒度顯著偽影理解的診斷基準。

該基準包含950張影像和3681個由人類編寫的多選題，涵蓋了偽影影像、匹配的真實參考影像以及配對的生成參考影像。四種對齊的問題型別分別評估存在檢測、語義定位、空間定位和基於證據的缺陷識別，而參考集則用於測試校準能力以及在標註缺陷不存在時的棄權能力。

在對20個VLM的測試中，SalArt-VQA揭示了影像級檢測準確性所隱藏的失敗：最強的模型在偽影影像上達到了99.37%的檢測召回率，但僅有53.26%的影像能正確回答所有四個偽影相關問題。將偽影影像與無偽影參考影像進行比較，發現了一種敏感度-校準權衡：敏感的模型常常做出無根據的偽影斷言，而保守的模型大多透過遺漏真實偽影來避免誤報。

這些結果表明，高偽影檢測準確性本身並不等同於對偽影有紮實的理解。SalArt-VQA暴露了這些隱藏的失敗模式，並提供了對VLM偽影斷言是否得到區域性視覺證據支援的細粒度評估。該基準為未來改進VLM對生成影像中偽影的魯棒性提供了重要工具，並強調了在評估VLM效能時，除了簡單的檢測準確性之外，還需要考慮更深層次的推理能力。