SalArt-VQA:诊断视觉语言模型是否理解生成图像中的显著伪影
SalArt-VQA是一个用于评估视觉语言模型(VLM)对AI生成图像中伪影的细粒度理解能力的诊断基准。它包含950张图像和3681个人工编写的多选题,覆盖存在检测、语义定位、空间定位和基于证据的缺陷识别。通过对20个VLM的测试,该基准揭示了图像级检测准确性所隐藏的失败模式,例如最强模型在伪影图像上的检测召回率达到99.37%,但仅有53.26%的图像能正确回答所有四个伪影相关问题,表明高检测准确率并不等同于真正的伪影理解。
视觉语言模型(VLM)越来越多地被应用于检测AI生成图像中是否存在可见伪影,然而,这些模型分析伪影的能力仍然在很大程度上未被探索。一个正确的图像级决策可能掩盖重要的失败:模型可能正确标记了伪影,但依赖于错误的视觉线索,选择了错误的区域,或者描述了图像中不存在的缺陷。为了直接评估这些行为,研究人员引入了SalArt-VQA,这是一个针对AI生成图像中细粒度显著伪影理解的诊断基准。
该基准包含950张图像和3681个由人类编写的多选题,涵盖了伪影图像、匹配的真实参考图像以及配对的生成参考图像。四种对齐的问题类型分别评估存在检测、语义定位、空间定位和基于证据的缺陷识别,而参考集则用于测试校准能力以及在标注缺陷不存在时的弃权能力。
在对20个VLM的测试中,SalArt-VQA揭示了图像级检测准确性所隐藏的失败:最强的模型在伪影图像上达到了99.37%的检测召回率,但仅有53.26%的图像能正确回答所有四个伪影相关问题。将伪影图像与无伪影参考图像进行比较,发现了一种敏感度-校准权衡:敏感的模型常常做出无根据的伪影断言,而保守的模型大多通过遗漏真实伪影来避免误报。
这些结果表明,高伪影检测准确性本身并不等同于对伪影有扎实的理解。SalArt-VQA暴露了这些隐藏的失败模式,并提供了对VLM伪影断言是否得到局部视觉证据支持的细粒度评估。该基准为未来改进VLM对生成图像中伪影的鲁棒性提供了重要工具,并强调了在评估VLM性能时,除了简单的检测准确性之外,还需要考虑更深层次的推理能力。