AI News HubLIVE
サイト内リライト2 分で読了

AIはファクトチェックができるのか?

本稿では、ファクトチェックにおけるAIの応用と限界を探る。WIRED誌のファクトチェッカーである筆者が実際にテストした結果、現在のAIモデルはファクトチェックのタスクで成績が悪く、誤り率は30%から60%に上る。Full Factのようなツールは大量データの処理に役立つが、人間の判断力や非デジタル化された知識への依存、歴史的理解は依然として代替不可能である。最後に、ファクトチェッカーはAIを避けるのではなく、積極的に関わり、その長所と短所を理解すべきだと提言する。

ソースHacker News AI著者: simianwords

人工知能(AI)がさまざまな業界に浸透する中、当然の疑問が生じる。AIはファクトチェックのような繊細な作業をこなせるのだろうか?WIRED誌のファクトチェッカーである筆者は、自身のテストと徹底的な調査を通じて、否定的な結論に達した。

従来のファクトチェックの工程——一行ごとの注釈、一次情報への依存、倫理的・法的レビュー——には、AIはまだ及んでいない。現在、AIは主に事後的な検証に活用されている。例えば、Full Factのようなツールは、ソーシャルメディアの投稿やポッドキャストの文字起こしなどの大量データを処理し、疑わしい主張をマークした後、人間がさらに検証する。Full Factの広報責任者マーク・フランケル氏が言うように、「最終的には人間が必要だ」。

なぜ人間が不可欠なのか?それはAIが依然として頻繁に誤るからだ。筆者が専門のファクトチェッカーとして感じるには、GoogleのAI概要は約3分の1の確率で使い物にならない。より体系的な研究はさらに高い誤り率を示している。2025年3月のTow Centerの調査では、AI搭載検索エンジンの回答の60%以上が不正確だった。BBCの研究では、チャットボットの誤り率は約45%とされている。つまり、AIはほぼ半分の確率で間違っていることになる。

モデルによって性能は異なる。RealFactBenchテストではClaudeが73%の正解率でトップだったが、OpenAIのSimpleQAベンチマークでは、どのモデルも50%の正解率を超えなかった。最も成績の良かったGemini 2.5 Proでも、正解率は55.6%にとどまった。さらに懸念すべきは、モデルが存在しない引用元を生成することだ。筆者がChatGPTに精度データを求めたところ、存在しない論文へのリンクを生成した。

実際のテストでは、4つの無料AIモデル(Grok、Claude、Gemini、ChatGPT)はいずれも基本的なファクトチェック業務を完遂できなかった。計画を提示するだけで、実際にはいかなる事実も検証しなかった。ChatGPTは、元の記事に存在しない段落まで生成した。

国際ファクトチェックネットワークの責任者アンジー・ホラン氏は、ファクトチェッカーはAIと積極的に関わり、その仕組みを学ぶべきだと提言する。「そうすれば、これらのツールの長所と短所を理解できる」と。筆者もこれに同意する。AIと向き合う時間が増えるほど、人間のファクトチェッカーとしての能力に自信が深まる。

より深い問題として、人類の知識の大半はデジタル化されていない。『Lost in Time』の著者ジャック・ビアリック氏が指摘するように、流れ作業や白内障手術、電池といった古くからの技術は、現代の保存技術よりも長く残っている。歴史学教授エイダ・パーマー氏は、500年前の出来事について私たちが知っているのは1%未満であり、その3分の2は間違っている可能性があると語る。寿命5~10年のマイクロチップと分散サーバーに知識の継承を委ねるのは、明らかにリスクが高い。

もちろん、人間も間違いを犯す。筆者はホラン氏へのインタビューでレコーダーのスイッチを入れ忘れたことを認めている。しかし、人間の誤りは認識可能で訂正可能であるのに対し、AIの「幻覚」はより隠蔽されやすく、制御が難しい。

結論は明快だ。AIはまだ人間のファクトチェッカーに取って代わることはできない。しかし、強力な補助ツールになり得る。鍵となるのは、オープンで慎重な姿勢で、人間とAIの最適な協働方法を模索することだろう。