眼見不為實——用於搜尋輔助影片虛假資訊檢測的基準
本文介紹了一個名為EVID-Bench的新基準,用於檢測基於搜尋的影片虛假資訊。該基準包含222個影片,涵蓋9種操縱型別,分為三大類:AI生成、單源編輯和多源編輯。研究發現,即使最好的多模態模型在點級準確率上也僅達61.43%,影片級準確率為43.24%,其中AI生成的操縱最具挑戰性。
近年來,影片虛假資訊越來越多地以語義和證據層面的操縱形式出現。真實鏡頭可能被選擇性編輯、時間順序重排、跨來源拼接,或者藉助AI生成內容構建虛假敘事。這種依賴於外部證據的操縱無法僅透過輸入影片本身可靠驗證,因為缺失、重排、替換或重新語境化的證據存在於影片之外。針對這一挑戰,Tao Yu等20位研究者聯合提出了EVID-Bench——一個用於搜尋輔助影片虛假資訊檢測的基準。在該基準中,系統必須搜尋開放網路以獲取相關影片,並透過跨影片比較識別虛假資訊。
EVID-Bench由222個影片組成,涵蓋9種操縱型別,分為三大類別:AI生成(例如深度偽造、合成場景)、單源編輯(例如時間修剪、幀刪除)和多源編輯(例如拼接、覆蓋)。所有樣本均經過驗證,無論透過視覺檢查還是前沿模型都無法直接察覺。研究團隊採用檢索增強驗證基線,對九個前沿多模態模型進行了評估。表現最好的系統在點級準確率上也僅達到61.43%,影片級準確率為43.24%。值得注意的是,AI生成的操縱依然是所有類別的挑戰中最難處理的。
進一步的錯誤分析揭示了幾個反覆出現的問題:模型會固著於無關的錨點,將合成內容誤歸因於編輯拼接,以及在完全解釋操縱之前過早終止搜尋。這些發現表明,當前的影片虛假資訊檢測尚有很大提升空間,而EVID-Bench為未來研究提供了一個重要的評估平臺。研究者公開了基準和程式碼,以推動更強大的檢索輔助影片驗證系統的發展。此外,該基準的釋出有望促進跨學科合作,提升社交媒體平臺的內容稽核能力,並幫助公眾更好地識別虛假影片資訊。隨著AI生成技術的不斷進步,此類基準對於維護資訊生態的真實性至關重要。