AI News HubLIVE
站内改写2 分鐘閱讀

你能信任你所見嗎?人類與AI檢測合成法律證據

這項研究探討了人類和前沿多模態大語言模型(MLLM)在辨別真實與AI生成的法律證據照片方面的能力。研究者構建了SLED-1400數據集,包含200張真實證據圖片和1200張由六種文本到圖像生成器生成的合成圖片。實驗顯示,人類總體準確率為64.8%,在最強的生成器面前準確率近乎隨機;MLLM從未誤判真實圖像,但漏檢了大量合成圖像。結論是任何單一方法都不可靠,需要結合人類審查、MLLM篩查和來源追蹤技術。

來源arXiv Computer Vision作者: Jinzhe Tan, Ali Ekber Cinar, Karim Benyekhlef

視覺證據長期以來被視為可靠的法庭證明形式,但人工智能的快速發展正在動搖這一傳統觀念。一項最新研究指出,無論是普通人類還是先進的多模態AI模型,都難以可靠地分辨真實法律證據照片與AI生成的合成圖像。

該研究團隊構建了名為SLED-1400的專門數據集,包含200張真實的民事糾紛現場證據照片,以及由六種主流文本到圖像生成工具(包括Gemini-3-Pro-Image、Flux-2-Max等)製作的1200張對應的合成圖像。這些圖片涵蓋10種常見證據類別,如物品損壞、現場狀況等。值得注意的是,數據集的設計嚴格模擬了實際法律場景中的視覺證據類型,以確保實驗結果的現實相關性。

在測試中,136名普通志願者通過在線實驗進行了判斷,結果顯示出令人警醒的侷限性。人類總體正確率僅為64.8%,面對質量最高的合成圖像(由Gemini-3-Pro-Image和Flux-2-Max生成),參與者表現幾乎與隨機猜測無異,準確率分別降至48.5%和51.0%。研究進一步分析發現,人類對真實圖像的判斷一致性較低,且錯誤模式分散,表明普通人缺乏有效的檢測策略。

與此同時,研究人員還評估了GPT-5.1、Gemini-3-Pro、Gemini-3-Flash和Qwen3-VL-235B四種多模態大語言模型的結果更為複雜。這些模型表現出驚人的高特異性:它們從未將任何一張真實照片誤判為合成(特異性100%),這一特性在司法場景中至關重要,因為錯誤指控真實證據為偽造可能導致嚴重的法律後果。然而,模型檢測合成照片的能力嚴重不足。例如,對於Gemini-3-Pro-Image生成的圖片,四種模型的平均檢測率僅有5.9%,意味着超過94%的合成證據可能被漏檢。

更深入的誤差分析揭示了重要規律:人類與AI模型的錯誤模式幾乎不相關,這意味着兩者的盲點基本不重疊,從而為互補驗證提供了可能。然而,不同AI模型之間的錯誤模式卻高度一致,説明現有先進模型存在共同的技術弱點,可能源於訓練數據的相似性或者算法架構的共同侷限。

基於這些發現,研究團隊提出了一個三層的司法驗證框架。第一層由經過專門訓練的人類審查員進行初步篩查,他們能夠識別出最明顯的偽造跡象。第二層利用多模態AI模型作為輔助工具,儘管其特異性極高,但可以篩選出明顯可疑的圖像。第三層則是技術基礎設施,如C2PA內容來源憑證,通過加密簽名追溯圖像的生成歷史,從根本上防止偽造。研究強調,任何單一方法都不可靠,只有多管齊下的策略才能有效應對AI合成證據帶來的日益嚴峻的挑戰。