2026-06-12站内改写1 分钟阅读更新: 2026-06-12

SalArt-VQA：诊断视觉语言模型是否理解生成图像中的显著伪影

SalArt-VQA是一个用于评估视觉语言模型（VLM）对AI生成图像中伪影的细粒度理解能力的诊断基准。它包含950张图像和3681个人工编写的多选题，覆盖存在检测、语义定位、空间定位和基于证据的缺陷识别。通过对20个VLM的测试，该基准揭示了图像级检测准确性所隐藏的失败模式，例如最强模型在伪影图像上的检测召回率达到99.37%，但仅有53.26%的图像能正确回答所有四个伪影相关问题，表明高检测准确率并不等同于真正的伪影理解。

来源arXiv Computer Vision作者: Xiaoxiao Sun, Ruotian Zhang, Junzhe Huang, James Burgess, Serena Yeung-Levy

视觉语言模型（VLM）越来越多地被应用于检测AI生成图像中是否存在可见伪影，然而，这些模型分析伪影的能力仍然在很大程度上未被探索。一个正确的图像级决策可能掩盖重要的失败：模型可能正确标记了伪影，但依赖于错误的视觉线索，选择了错误的区域，或者描述了图像中不存在的缺陷。为了直接评估这些行为，研究人员引入了SalArt-VQA，这是一个针对AI生成图像中细粒度显著伪影理解的诊断基准。

该基准包含950张图像和3681个由人类编写的多选题，涵盖了伪影图像、匹配的真实参考图像以及配对的生成参考图像。四种对齐的问题类型分别评估存在检测、语义定位、空间定位和基于证据的缺陷识别，而参考集则用于测试校准能力以及在标注缺陷不存在时的弃权能力。

在对20个VLM的测试中，SalArt-VQA揭示了图像级检测准确性所隐藏的失败：最强的模型在伪影图像上达到了99.37%的检测召回率，但仅有53.26%的图像能正确回答所有四个伪影相关问题。将伪影图像与无伪影参考图像进行比较，发现了一种敏感度-校准权衡：敏感的模型常常做出无根据的伪影断言，而保守的模型大多通过遗漏真实伪影来避免误报。

这些结果表明，高伪影检测准确性本身并不等同于对伪影有扎实的理解。SalArt-VQA暴露了这些隐藏的失败模式，并提供了对VLM伪影断言是否得到局部视觉证据支持的细粒度评估。该基准为未来改进VLM对生成图像中伪影的鲁棒性提供了重要工具，并强调了在评估VLM性能时，除了简单的检测准确性之外，还需要考虑更深层次的推理能力。