2026-06-05 13:00 UTC+9サイト内リライト2 分で読了更新: 2026-06-30 22:03 UTC+9

モデル崩壊の疫学：二層SIRダイナミクスによる合成データ汚染のモデル化

研究チームは、AIエコシステムにおけるモデルとデータコーパス間の合成データのクロスコンタミネーションをモデル化する二層SIR/SIRSフレームワークを提案し、合成テキスト検出と集団免疫が重要な介入戦略であることを明らかにした。

ソースarXiv Computational Linguistics著者: Xiangyu Wang

近年、人工知能モデルの訓練における合成データの利用が増加しているが、この手法はモデル崩壊、すなわちモデルの性能が徐々に低下する現象を引き起こす可能性がある。既存の研究では通常、モデル崩壊を単一チェーンでの劣化プロセスとして扱っているが、実際のAIエコシステムでは汚染はモデル間で交差して発生する。すなわち、あるモデルが他のモデルが生成した合成データを学習し、新たな合成テキストを生成して共有コーパスを汚染する。このようなクロスコンタミネーションにより、モデル崩壊はモデルとコーパスの間で「伝染病」のように広がる。

この現象をより正確に記述するため、研究チーム（論文著者はXiangyu Wang氏ら、2026年4月14日にarXivに投稿）は二層結合SIR/SIRSフレームワークを提案した。このフレームワークは現象論的平均場モデルであり、データコーパスとAIモデルを相互作用する二つの集団として扱い、各集団内を感受性、感染、回復の三つのコンパートメントに分割し、層間伝播機構で結びつける。研究チームはSIRS変種を推奨しており、これは免疫の減衰を導入するため、フィルタリングされたコーパスや再訓練されたモデルが再汚染されやすいことを反映している。論文は全24ページ、15の図を含む。

次世代行列法により、基本再生産数R0 = √(β_D β_M / [(γ_D+μ_D)(γ_M+μ_M)]) を導出し、二層システムの流行閾値解析に適用した。公開されているAIテキスト普及率データに基づくシナリオ校正では、三つのシナリオすべてでR0が1を超え、システムが超臨界ダイナミクスにあること、すなわち汚染が持続することを示した。Sobol感度解析では、合成テキスト検出が最も影響力の大きいパラメータであると特定された。

さらに、二部ネットワークエージェントベースモデルを構築し、密なネットワークでは平均場整合性（R²>0.96）を確認したが、不均質性のあるネットワークでは性能が低下した。GPT-2汚染連鎖実験（WikiTextとシェイクスピアデータセットを使用した192回の実験）では、用量反応的な劣化と多様性の損失が観察され、閾値理論と定性的に一致した。予算一致のソース多様性実験（1088回の実験）では、複数ソースの混合がモデル崩壊を緩やかに緩和する可能性が示唆されたが、汚染率が低い場合には効果が消失した。介入分析では、検出ベースのフィルタリングと集団免疫が最も効果的な戦略であると特定された。この研究は、AIモデル崩壊の理解と対策に新たな疫学的視点を提供し、AIシステムのデータ管理戦略に重要な示唆を与える。