2026-06-09站内改写2 分钟阅读更新: 2026-06-09

你能信任你所见吗？人类与AI检测合成法律证据

这项研究探讨了人类和前沿多模态大语言模型（MLLM）在辨别真实与AI生成的法律证据照片方面的能力。研究者构建了SLED-1400数据集，包含200张真实证据图片和1200张由六种文本到图像生成器生成的合成图片。实验显示，人类总体准确率为64.8%，在最强的生成器面前准确率近乎随机；MLLM从未误判真实图像，但漏检了大量合成图像。结论是任何单一方法都不可靠，需要结合人类审查、MLLM筛查和来源追踪技术。

来源arXiv Computer Vision作者: Jinzhe Tan, Ali Ekber Cinar, Karim Benyekhlef

视觉证据长期以来被视为可靠的法庭证明形式，但人工智能的快速发展正在动摇这一传统观念。一项最新研究指出，无论是普通人类还是先进的多模态AI模型，都难以可靠地分辨真实法律证据照片与AI生成的合成图像。

该研究团队构建了名为SLED-1400的专门数据集，包含200张真实的民事纠纷现场证据照片，以及由六种主流文本到图像生成工具（包括Gemini-3-Pro-Image、Flux-2-Max等）制作的1200张对应的合成图像。这些图片涵盖10种常见证据类别，如物品损坏、现场状况等。值得注意的是，数据集的设计严格模拟了实际法律场景中的视觉证据类型，以确保实验结果的现实相关性。

在测试中，136名普通志愿者通过在线实验进行了判断，结果显示出令人警醒的局限性。人类总体正确率仅为64.8%，面对质量最高的合成图像（由Gemini-3-Pro-Image和Flux-2-Max生成），参与者表现几乎与随机猜测无异，准确率分别降至48.5%和51.0%。研究进一步分析发现，人类对真实图像的判断一致性较低，且错误模式分散，表明普通人缺乏有效的检测策略。

与此同时，研究人员还评估了GPT-5.1、Gemini-3-Pro、Gemini-3-Flash和Qwen3-VL-235B四种多模态大语言模型的结果更为复杂。这些模型表现出惊人的高特异性：它们从未将任何一张真实照片误判为合成（特异性100%），这一特性在司法场景中至关重要，因为错误指控真实证据为伪造可能导致严重的法律后果。然而，模型检测合成照片的能力严重不足。例如，对于Gemini-3-Pro-Image生成的图片，四种模型的平均检测率仅有5.9%，意味着超过94%的合成证据可能被漏检。

更深入的误差分析揭示了重要规律：人类与AI模型的错误模式几乎不相关，这意味着两者的盲点基本不重叠，从而为互补验证提供了可能。然而，不同AI模型之间的错误模式却高度一致，说明现有先进模型存在共同的技术弱点，可能源于训练数据的相似性或者算法架构的共同局限。

基于这些发现，研究团队提出了一个三层的司法验证框架。第一层由经过专门训练的人类审查员进行初步筛查，他们能够识别出最明显的伪造迹象。第二层利用多模态AI模型作为辅助工具，尽管其特异性极高，但可以筛选出明显可疑的图像。第三层则是技术基础设施，如C2PA内容来源凭证，通过加密签名追溯图像的生成历史，从根本上防止伪造。研究强调，任何单一方法都不可靠，只有多管齐下的策略才能有效应对AI合成证据带来的日益严峻的挑战。