AI News HubLIVE
站内改写2 分で読了

SalArt-VQA:生成画像における顕著なアーティファクトをVLMが理解しているかを診断する

SalArt-VQAは、視覚言語モデル(VLM)がAI生成画像のアーティファクトを細粒度で理解する能力を評価するための診断ベンチマークです。950枚の画像と3,681問の多肢選択問題を含み、存在検出、意味的定位、空間的接地、証拠に基づく欠陥識別をカバーします。20のVLMをテストした結果、最強のモデルは検出再現率99.37%を達成したものの、全4問に正解した画像は53.26%のみであり、感度と較正のトレードオフが明らかになりました。

ソースarXiv Computer Vision著者: Xiaoxiao Sun, Ruotian Zhang, Junzhe Huang, James Burgess, Serena Yeung-Levy

視覚言語モデル(VLM)は、AI生成画像に目に見えるアーティファクトが含まれているかを検出するためにますます使用されていますが、そのようなアーティファクトを分析する能力はまだ十分に理解されていません。正しい画像レベルの判断でも、重要な失敗が隠れている可能性があります:モデルは正しくアーティファクトを検出しても、誤った視覚的手がかりに依存したり、間違った領域を選択したり、画像がサポートしない欠陥を説明したりする可能性があります。これらの行動を直接評価するために、研究者らはSalArt-VQAを導入しました。これは、AI生成画像における細粒度の顕著なアーティファクト理解のための診断ベンチマークです。

SalArt-VQAは、950枚の画像と3,681問の人間が作成した多肢選択問題を含み、アーティファクト画像、対応する実参照画像、およびペア化された生成参照画像を網羅しています。4つの整合された質問タイプは、存在検出、意味的定位、空間的接地、および証拠に基づく欠陥識別を評価し、参照セットは較正能力と、注釈付き欠陥が存在しない場合の棄権をテストします。

20のVLMにわたって、SalArt-VQAは画像レベルの検出精度が隠す失敗を明らかにしました:最強のモデルはアーティファクト画像で99.37%の検出再現率に達しますが、全4つのアーティファクト関連質問に正解した画像は53.26%にすぎません。アーティファクト画像とアーティファクトフリーの参照画像を比較すると、感度-較正トレードオフが明らかになります:感度の高いモデルはしばしば根拠のないアーティファクト主張を行い、保守的なモデルは主に実際のアーティファクトを見逃すことで誤警報を回避します。

これらの結果は、高いアーティファクト検出精度だけでは、確かなアーティファクト理解を意味しないことを示しています。SalArt-VQAはこれらの隠れた失敗モードを露呈し、VLMのアーティファクト主張が局所的な視覚的証拠によってサポートされているかどうかの細粒度評価を提供します。このベンチマークは、生成画像におけるアーティファクトに対するVLMのロバスト性を将来改善するための重要なツールとなります。