AI News HubLIVE
站内改写1 分鐘閱讀

SalArt-VQA:診斷視覺語言模型是否理解生成圖像中的顯著偽影

SalArt-VQA是一個用於評估視覺語言模型(VLM)對AI生成圖像中偽影的細粒度理解能力的診斷基準。它包含950張圖像和3681個人工編寫的多選題,覆蓋存在檢測、語義定位、空間定位和基於證據的缺陷識別。通過對20個VLM的測試,該基準揭示了圖像級檢測準確性所隱藏的失敗模式,例如最強模型在偽影圖像上的檢測召回率達到99.37%,但僅有53.26%的圖像能正確回答所有四個偽影相關問題,表明高檢測準確率並不等同於真正的偽影理解。

來源arXiv Computer Vision作者: Xiaoxiao Sun, Ruotian Zhang, Junzhe Huang, James Burgess, Serena Yeung-Levy

視覺語言模型(VLM)越來越多地被應用於檢測AI生成圖像中是否存在可見偽影,然而,這些模型分析偽影的能力仍然在很大程度上未被探索。一個正確的圖像級決策可能掩蓋重要的失敗:模型可能正確標記了偽影,但依賴於錯誤的視覺線索,選擇了錯誤的區域,或者描述了圖像中不存在的缺陷。為了直接評估這些行為,研究人員引入了SalArt-VQA,這是一個針對AI生成圖像中細粒度顯著偽影理解的診斷基準。

該基準包含950張圖像和3681個由人類編寫的多選題,涵蓋了偽影圖像、匹配的真實參考圖像以及配對的生成參考圖像。四種對齊的問題類型分別評估存在檢測、語義定位、空間定位和基於證據的缺陷識別,而參考集則用於測試校準能力以及在標註缺陷不存在時的棄權能力。

在對20個VLM的測試中,SalArt-VQA揭示了圖像級檢測準確性所隱藏的失敗:最強的模型在偽影圖像上達到了99.37%的檢測召回率,但僅有53.26%的圖像能正確回答所有四個偽影相關問題。將偽影圖像與無偽影參考圖像進行比較,發現了一種敏感度-校準權衡:敏感的模型常常做出無根據的偽影斷言,而保守的模型大多通過遺漏真實偽影來避免誤報。

這些結果表明,高偽影檢測準確性本身並不等同於對偽影有紮實的理解。SalArt-VQA暴露了這些隱藏的失敗模式,並提供了對VLM偽影斷言是否得到局部視覺證據支持的細粒度評估。該基準為未來改進VLM對生成圖像中偽影的魯棒性提供了重要工具,並強調了在評估VLM性能時,除了簡單的檢測準確性之外,還需要考慮更深層次的推理能力。