2026-06-04 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

眼見不為實——用於搜尋輔助影片虛假資訊檢測的基準

本文介紹了一個名為EVID-Bench的新基準，用於檢測基於搜尋的影片虛假資訊。該基準包含222個影片，涵蓋9種操縱型別，分為三大類：AI生成、單源編輯和多源編輯。研究發現，即使最好的多模態模型在點級準確率上也僅達61.43%，影片級準確率為43.24%，其中AI生成的操縱最具挑戰性。

來源arXiv Computer Vision作者: Tao Yu, Yujia Yang, Shenghua Chai, Zhang Jinshuai, Haopeng Jin, Hao Wang, Minghui Zhang, Zhongtian Luo, Yuchen Long, Xinlong Chen, Jiabing Yang, Zhaolu Kang, Yuxuan Zhou, Zhengyu Man, Xinming Wang, Hongzhu Yi, Zheqi He, Xi Yang, Yan Huang, Liang Wang

近年來，影片虛假資訊越來越多地以語義和證據層面的操縱形式出現。真實鏡頭可能被選擇性編輯、時間順序重排、跨來源拼接，或者藉助AI生成內容構建虛假敘事。這種依賴於外部證據的操縱無法僅透過輸入影片本身可靠驗證，因為缺失、重排、替換或重新語境化的證據存在於影片之外。針對這一挑戰，Tao Yu等20位研究者聯合提出了EVID-Bench——一個用於搜尋輔助影片虛假資訊檢測的基準。在該基準中，系統必須搜尋開放網路以獲取相關影片，並透過跨影片比較識別虛假資訊。

EVID-Bench由222個影片組成，涵蓋9種操縱型別，分為三大類別：AI生成（例如深度偽造、合成場景）、單源編輯（例如時間修剪、幀刪除）和多源編輯（例如拼接、覆蓋）。所有樣本均經過驗證，無論透過視覺檢查還是前沿模型都無法直接察覺。研究團隊採用檢索增強驗證基線，對九個前沿多模態模型進行了評估。表現最好的系統在點級準確率上也僅達到61.43%，影片級準確率為43.24%。值得注意的是，AI生成的操縱依然是所有類別的挑戰中最難處理的。

進一步的錯誤分析揭示了幾個反覆出現的問題：模型會固著於無關的錨點，將合成內容誤歸因於編輯拼接，以及在完全解釋操縱之前過早終止搜尋。這些發現表明，當前的影片虛假資訊檢測尚有很大提升空間，而EVID-Bench為未來研究提供了一個重要的評估平臺。研究者公開了基準和程式碼，以推動更強大的檢索輔助影片驗證系統的發展。此外，該基準的釋出有望促進跨學科合作，提升社交媒體平臺的內容稽核能力，並幫助公眾更好地識別虛假影片資訊。隨著AI生成技術的不斷進步，此類基準對於維護資訊生態的真實性至關重要。