2026-06-09站内改写2 分鐘閱讀更新: 2026-06-09

你能信任你所見嗎？人類與AI檢測合成法律證據

這項研究探討了人類和前沿多模態大語言模型（MLLM）在辨別真實與AI生成的法律證據照片方面的能力。研究者構建了SLED-1400數據集，包含200張真實證據圖片和1200張由六種文本到圖像生成器生成的合成圖片。實驗顯示，人類總體準確率為64.8%，在最強的生成器面前準確率近乎隨機；MLLM從未誤判真實圖像，但漏檢了大量合成圖像。結論是任何單一方法都不可靠，需要結合人類審查、MLLM篩查和來源追蹤技術。

來源arXiv Computer Vision作者: Jinzhe Tan, Ali Ekber Cinar, Karim Benyekhlef

視覺證據長期以來被視為可靠的法庭證明形式，但人工智能的快速發展正在動搖這一傳統觀念。一項最新研究指出，無論是普通人類還是先進的多模態AI模型，都難以可靠地分辨真實法律證據照片與AI生成的合成圖像。

該研究團隊構建了名為SLED-1400的專門數據集，包含200張真實的民事糾紛現場證據照片，以及由六種主流文本到圖像生成工具（包括Gemini-3-Pro-Image、Flux-2-Max等）製作的1200張對應的合成圖像。這些圖片涵蓋10種常見證據類別，如物品損壞、現場狀況等。值得注意的是，數據集的設計嚴格模擬了實際法律場景中的視覺證據類型，以確保實驗結果的現實相關性。

在測試中，136名普通志願者通過在線實驗進行了判斷，結果顯示出令人警醒的侷限性。人類總體正確率僅為64.8%，面對質量最高的合成圖像（由Gemini-3-Pro-Image和Flux-2-Max生成），參與者表現幾乎與隨機猜測無異，準確率分別降至48.5%和51.0%。研究進一步分析發現，人類對真實圖像的判斷一致性較低，且錯誤模式分散，表明普通人缺乏有效的檢測策略。

與此同時，研究人員還評估了GPT-5.1、Gemini-3-Pro、Gemini-3-Flash和Qwen3-VL-235B四種多模態大語言模型的結果更為複雜。這些模型表現出驚人的高特異性：它們從未將任何一張真實照片誤判為合成（特異性100%），這一特性在司法場景中至關重要，因為錯誤指控真實證據為偽造可能導致嚴重的法律後果。然而，模型檢測合成照片的能力嚴重不足。例如，對於Gemini-3-Pro-Image生成的圖片，四種模型的平均檢測率僅有5.9%，意味着超過94%的合成證據可能被漏檢。

更深入的誤差分析揭示了重要規律：人類與AI模型的錯誤模式幾乎不相關，這意味着兩者的盲點基本不重疊，從而為互補驗證提供了可能。然而，不同AI模型之間的錯誤模式卻高度一致，説明現有先進模型存在共同的技術弱點，可能源於訓練數據的相似性或者算法架構的共同侷限。

基於這些發現，研究團隊提出了一個三層的司法驗證框架。第一層由經過專門訓練的人類審查員進行初步篩查，他們能夠識別出最明顯的偽造跡象。第二層利用多模態AI模型作為輔助工具，儘管其特異性極高，但可以篩選出明顯可疑的圖像。第三層則是技術基礎設施，如C2PA內容來源憑證，通過加密簽名追溯圖像的生成歷史，從根本上防止偽造。研究強調，任何單一方法都不可靠，只有多管齊下的策略才能有效應對AI合成證據帶來的日益嚴峻的挑戰。