2026-06-04 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

眼見不為實——用於搜索輔助視頻虛假信息檢測的基準

本文介紹了一個名為EVID-Bench的新基準，用於檢測基於搜索的視頻虛假信息。該基準包含222個視頻，涵蓋9種操縱類型，分為三大類：AI生成、單源編輯和多源編輯。研究發現，即使最好的多模態模型在點級準確率上也僅達61.43%，視頻級準確率為43.24%，其中AI生成的操縱最具挑戰性。

來源arXiv Computer Vision作者: Tao Yu, Yujia Yang, Shenghua Chai, Zhang Jinshuai, Haopeng Jin, Hao Wang, Minghui Zhang, Zhongtian Luo, Yuchen Long, Xinlong Chen, Jiabing Yang, Zhaolu Kang, Yuxuan Zhou, Zhengyu Man, Xinming Wang, Hongzhu Yi, Zheqi He, Xi Yang, Yan Huang, Liang Wang

近年來，視頻虛假信息越來越多地以語義和證據層面的操縱形式出現。真實鏡頭可能被選擇性編輯、時間順序重排、跨來源拼接，或者藉助AI生成內容構建虛假敍事。這種依賴於外部證據的操縱無法僅通過輸入視頻本身可靠驗證，因為缺失、重排、替換或重新語境化的證據存在於視頻之外。針對這一挑戰，Tao Yu等20位研究者聯合提出了EVID-Bench——一個用於搜索輔助視頻虛假信息檢測的基準。在該基準中，系統必須搜索開放網絡以獲取相關視頻，並通過跨視頻比較識別虛假信息。

EVID-Bench由222個視頻組成，涵蓋9種操縱類型，分為三大類別：AI生成（例如深度偽造、合成場景）、單源編輯（例如時間修剪、幀刪除）和多源編輯（例如拼接、覆蓋）。所有樣本均經過驗證，無論通過視覺檢查還是前沿模型都無法直接察覺。研究團隊採用檢索增強驗證基線，對九個前沿多模態模型進行了評估。表現最好的系統在點級準確率上也僅達到61.43%，視頻級準確率為43.24%。值得注意的是，AI生成的操縱依然是所有類別的挑戰中最難處理的。

進一步的錯誤分析揭示了幾個反覆出現的問題：模型會固着於無關的錨點，將合成內容誤歸因於編輯拼接，以及在完全解釋操縱之前過早終止搜索。這些發現表明，當前的視頻虛假信息檢測尚有很大提升空間，而EVID-Bench為未來研究提供了一個重要的評估平台。研究者公開了基準和代碼，以推動更強大的檢索輔助視頻驗證系統的發展。此外，該基準的發佈有望促進跨學科合作，提升社交媒體平台的內容審核能力，並幫助公眾更好地識別虛假視頻信息。隨着AI生成技術的不斷進步，此類基準對於維護信息生態的真實性至關重要。