AI News HubLIVE
站内改写2 分で読了

あなたは見たものを信じられますか?人間とAIによる合成法的証拠の検出

人間と最先端のマルチモーダル大規模言語モデル(MLLM)が、本物の法的証拠写真とAI生成の偽物をどれだけ見分けられるかを調査した研究。200枚の本物と1200枚の合成画像からなるデータセットSLED-1400を構築。人間の全体的な正解率は64.8%で、最強の生成器に対してはほぼ偶然のレベル。MLLMは本物を見逃すことはなかったが、多くの合成画像を見逃した。いずれも単独では信頼できず、訓練された人間のレビュー、MLLMスクリーニング、C2PAのような来歴インフラの組み合わせを提唱。

ソースarXiv Computer Vision著者: Jinzhe Tan, Ali Ekber Cinar, Karim Benyekhlef

視覚的証拠は長い間、信頼できる法的証明の形態とみなされてきたが、人工知能の進歩によりその前提は揺らいでいる。最新の研究では、一般の人間と最先端のマルチモーダル大規模言語モデル(MLLM)が、実際の法的証拠写真とAI生成の合成画像をどの程度見分けられるかが検証された。

研究チームは、民事紛争で典型的な物体中心のシナリオを対象に、200枚の本物の証拠画像と、6つの最新テキスト画像生成ツール(Gemini-3-Pro-Image、Flux-2-Maxなど)によって作成された1200枚の合成画像からなるデータセット「SLED-1400」を構築した。画像は10の証拠カテゴリにわたっており、物品の損傷や現場の状況などが含まれる。データセットは実際の法廷で使用される視覚的証拠の種類を厳密に模倣しており、実験結果の現実的な関連性を確保している。

136名の一般参加者を対象としたオンライン実験では、人間の平均正解率は64.8%だった。特に最も優れた生成器(Gemini-3-Pro-ImageとFlux-2-Max)による画像に対しては、正解率はそれぞれ48.5%と51.0%にとどまり、偶然のレベルと区別がつかなかった。参加者は本物の画像を正しく識別する際にも一貫性が低く、エラーパターンが分散していることが判明した。これは一般人が効果的な検出戦略を持っていないことを示唆している。

並行して、GPT-5.1、Gemini-3-Pro、Gemini-3-Flash、Qwen3-VL-235Bの4つのMLLMが評価された。これらのモデルは本物の画像を一切誤分類しなかった(特異度100%)。この特性は司法の場では極めて重要である。なぜなら、本物の証拠を偽造と誤って非難することは深刻な法的結果を招く可能性があるからだ。しかし、困難な生成器からの合成画像のほとんどを見逃した。例えばGemini-3-Pro-Imageの出力に対する平均検出率はわずか5.9%であり、94%以上の合成証拠が見逃される可能性があることを意味する。

より詳細な誤り分析により、重要なパターンが明らかになった。人間とMLLMのエラーパターンはほとんど相関していなかったのに対し、4つのMLLM間では強い相関がみられた。これは、人間とAIの盲点がほとんど重ならないことを示しており、補完的な検証の可能性を示唆している。一方で、AIモデル間に共通の弱点が存在することは、訓練データの類似性やアルゴリズムの共通の制約に起因する可能性がある。

これらの発見に基づき、研究チームは3層の司法検証フレームワークを提案している。第1層では、特別な訓練を受けた人間の審査員が予備的なスクリーニングを行い、最も明白な偽造兆候を特定する。第2層では、多モーダルAIモデルを補助ツールとして活用し、特に特異度の高さを活かして明らかに疑わしい画像を選別する。第3層は技術インフラであり、C2PAコンテンツクレデンシャルなどの来歴情報を利用して、暗号署名によって画像の生成履歴を追跡し、偽造を根本的に防止する。研究は、単一の手法だけでは信頼性が不十分であり、多角的なアプローチのみがAI合成証拠の増大する課題に効果的に対処できると強調している。