SalArt-VQA:診斷視覺語言模型是否理解生成影像中的顯著偽影
SalArt-VQA是一個用於評估視覺語言模型(VLM)對AI生成影像中偽影的細粒度理解能力的診斷基準。它包含950張影像和3681個人工編寫的多選題,覆蓋存在檢測、語義定位、空間定位和基於證據的缺陷識別。透過對20個VLM的測試,該基準揭示了影像級檢測準確性所隱藏的失敗模式,例如最強模型在偽影影像上的檢測召回率達到99.37%,但僅有53.26%的影像能正確回答所有四個偽影相關問題,表明高檢測準確率並不等同於真正的偽影理解。
視覺語言模型(VLM)越來越多地被應用於檢測AI生成影像中是否存在可見偽影,然而,這些模型分析偽影的能力仍然在很大程度上未被探索。一個正確的影像級決策可能掩蓋重要的失敗:模型可能正確標記了偽影,但依賴於錯誤的視覺線索,選擇了錯誤的區域,或者描述了影像中不存在的缺陷。為了直接評估這些行為,研究人員引入了SalArt-VQA,這是一個針對AI生成影像中細粒度顯著偽影理解的診斷基準。
該基準包含950張影像和3681個由人類編寫的多選題,涵蓋了偽影影像、匹配的真實參考影像以及配對的生成參考影像。四種對齊的問題型別分別評估存在檢測、語義定位、空間定位和基於證據的缺陷識別,而參考集則用於測試校準能力以及在標註缺陷不存在時的棄權能力。
在對20個VLM的測試中,SalArt-VQA揭示了影像級檢測準確性所隱藏的失敗:最強的模型在偽影影像上達到了99.37%的檢測召回率,但僅有53.26%的影像能正確回答所有四個偽影相關問題。將偽影影像與無偽影參考影像進行比較,發現了一種敏感度-校準權衡:敏感的模型常常做出無根據的偽影斷言,而保守的模型大多透過遺漏真實偽影來避免誤報。
這些結果表明,高偽影檢測準確性本身並不等同於對偽影有紮實的理解。SalArt-VQA暴露了這些隱藏的失敗模式,並提供了對VLM偽影斷言是否得到區域性視覺證據支援的細粒度評估。該基準為未來改進VLM對生成影像中偽影的魯棒性提供了重要工具,並強調了在評估VLM效能時,除了簡單的檢測準確性之外,還需要考慮更深層次的推理能力。