AI News HubLIVE
站内改写2 分钟阅读

你能信任你所见吗?人类与AI检测合成法律证据

这项研究探讨了人类和前沿多模态大语言模型(MLLM)在辨别真实与AI生成的法律证据照片方面的能力。研究者构建了SLED-1400数据集,包含200张真实证据图片和1200张由六种文本到图像生成器生成的合成图片。实验显示,人类总体准确率为64.8%,在最强的生成器面前准确率近乎随机;MLLM从未误判真实图像,但漏检了大量合成图像。结论是任何单一方法都不可靠,需要结合人类审查、MLLM筛查和来源追踪技术。

来源arXiv Computer Vision作者: Jinzhe Tan, Ali Ekber Cinar, Karim Benyekhlef

视觉证据长期以来被视为可靠的法庭证明形式,但人工智能的快速发展正在动摇这一传统观念。一项最新研究指出,无论是普通人类还是先进的多模态AI模型,都难以可靠地分辨真实法律证据照片与AI生成的合成图像。

该研究团队构建了名为SLED-1400的专门数据集,包含200张真实的民事纠纷现场证据照片,以及由六种主流文本到图像生成工具(包括Gemini-3-Pro-Image、Flux-2-Max等)制作的1200张对应的合成图像。这些图片涵盖10种常见证据类别,如物品损坏、现场状况等。值得注意的是,数据集的设计严格模拟了实际法律场景中的视觉证据类型,以确保实验结果的现实相关性。

在测试中,136名普通志愿者通过在线实验进行了判断,结果显示出令人警醒的局限性。人类总体正确率仅为64.8%,面对质量最高的合成图像(由Gemini-3-Pro-Image和Flux-2-Max生成),参与者表现几乎与随机猜测无异,准确率分别降至48.5%和51.0%。研究进一步分析发现,人类对真实图像的判断一致性较低,且错误模式分散,表明普通人缺乏有效的检测策略。

与此同时,研究人员还评估了GPT-5.1、Gemini-3-Pro、Gemini-3-Flash和Qwen3-VL-235B四种多模态大语言模型的结果更为复杂。这些模型表现出惊人的高特异性:它们从未将任何一张真实照片误判为合成(特异性100%),这一特性在司法场景中至关重要,因为错误指控真实证据为伪造可能导致严重的法律后果。然而,模型检测合成照片的能力严重不足。例如,对于Gemini-3-Pro-Image生成的图片,四种模型的平均检测率仅有5.9%,意味着超过94%的合成证据可能被漏检。

更深入的误差分析揭示了重要规律:人类与AI模型的错误模式几乎不相关,这意味着两者的盲点基本不重叠,从而为互补验证提供了可能。然而,不同AI模型之间的错误模式却高度一致,说明现有先进模型存在共同的技术弱点,可能源于训练数据的相似性或者算法架构的共同局限。

基于这些发现,研究团队提出了一个三层的司法验证框架。第一层由经过专门训练的人类审查员进行初步筛查,他们能够识别出最明显的伪造迹象。第二层利用多模态AI模型作为辅助工具,尽管其特异性极高,但可以筛选出明显可疑的图像。第三层则是技术基础设施,如C2PA内容来源凭证,通过加密签名追溯图像的生成历史,从根本上防止伪造。研究强调,任何单一方法都不可靠,只有多管齐下的策略才能有效应对AI合成证据带来的日益严峻的挑战。