解釈可能な言語特徴を用いたAI生成フェイクニュース検出におけるプロンプト横断汎化
大規模言語モデルの普及により、AI生成フェイクニュースの拡散が懸念されている。本研究では、語彙多様性、可読性、感情特性などの解釈可能な言語特徴を用いて、異なるプロンプトで生成されたAI記事を検出する際のプロンプト横断汎化を調査。ランダムフォレスト分類器は、6つの訓練-テスト組み合わせすべてでAUC 0.988~1.000を達成し、プロンプト変動に対する頑健性を示した。
大規模言語モデル(LLM)の利用増加に伴い、異なるプロンプト戦略下でのAI生成フェイクニュースの拡散が懸念されています。既存の検出モデルのほとんどは単一の生成設定で訓練・評価されており、未知のプロンプトに対する汎化能力は不明です。この問題に対処するため、本研究では3つの異なるプロンプトで生成されたAI記事データセットと実際のニュース記事を組み合わせ、語彙多様性、可読性、感情特性などの解釈可能な言語特徴を抽出し、ランダムフォレスト分類器を用いてプロンプト横断フレームワークで評価しました。
研究チームは、3つの異なるプロンプト戦略でAI記事を生成し、それらを実際のニュースと混合してデータセットを構築しました。抽出された特徴には、語彙多様性(語彙の豊かさ)、可読性(文の長さや複雑さ)、感情強度(感情語の使用)が含まれます。プロンプト横断実験では、あるプロンプトで訓練したモデルを別のプロンプトでテストしました。6つすべての訓練-テスト組み合わせで、性能は一貫して高く、AUC値は0.988から1.000の範囲でした。これは分類器の強力な汎化能力を示しています。
さらに分析を進めると、AI生成テキストは実際のニュースと比較して、語彙多様性が高く、可読性が低く、感情強度が有意に低いことが明らかになりました。プロンプト間で分布の変動があるにもかかわらず、これらの特徴はAI生成テキストの安定した特性を捉えており、分類器は異なるプロンプト戦略下でも高い性能を維持しました。この発見は、解釈可能な言語特徴に基づくアプローチが、プロンプト変動下でもAI生成フェイクニュースの頑健な検出を提供できることを示しています。
本研究のもう一つの重要な貢献は、特徴ベース手法の実用的可能性を検証した点です。LLMが生成するテキストはプロンプトによってスタイルが異なる可能性がありますが、言語特徴の核心的な差異は依然として存在するため、特定のプロンプトに依存しない汎用的な検出システムの開発が可能となります。今後の研究方向としては、より多様なプロンプト戦略への拡張、マルチモーダル特徴の統合、およびディープラーニングモデルのプロンプト横断シナリオでの性能評価が挙げられます。
結論として、本研究はプロンプト横断シナリオにおけるAI偽情報検出に新たな視点を提供し、特徴ベース手法の有効性を確認するとともに、将来のより汎用的な検出システムの開発基盤を築くものです。研究チームは複数の機関から参加しており、論文はarXiv(番号2606.04199)に提出され、学術会議で発表される予定です。