AIはジャーナリズムの言語をより反復的で予測可能にしている——それは私たち全員にとって問題だ
ニュースコンテンツの多くがAIによって生成されるにつれ、言語は均質化し、革新性を失っている。研究によると、AIが合成テキストで訓練されると「モデル崩壊」が生じ、言語の多様性が減少する。これはジャーナリズムに影響を与えるだけでなく、社会が現実を記述し議論する能力をも損なう。
生成AIがジャーナリズムで広く使われるようになるにつれ、重要な疑問が浮かび上がる:機械によって書かれるニュースコンテンツが増えるとき、言語自体に何が起こるのか?この問題はジャーナリズムの職業の将来だけでなく、私たち全員が現実を理解し、記述し、議論するために使う言語の豊かさにも影響を与える。
歴史的に、報道機関は公共言語が成長し豊かになる場であった。新聞やオンラインメディアは情報を伝えるだけでなく、新しい語彙や表現が社会で流通する起点でもある。研究は、ニュース言語が特に新しい現象、技術、社会変化を広い聴衆に報告する際に、新語の創造と普及のプラットフォームであることを示している。しかし、もしジャーナリズムの執筆のかなりの部分が生成AIに委ねられれば、この役割は弱まるだろう。
大規模言語モデル(LLM)は、次の「トークン」や単語を予測することで流暢で信頼できるテキストを生成するが、これにより統計的な規則性や一般的な確立された議論や表現を優先する傾向がある。それ自体は言語を劣化させないが、この論理が公共の場での執筆を支配するようになると問題が生じる。さらに深刻な危険は、AIシステムがすでにAIが生成したテキストで訓練を始めることにある。これは複数の研究が「モデル崩壊」と呼ぶプロセスを引き起こし、あるモデルが生成した素材が後の世代の訓練データを汚染する。平たく言えば、AIシステムはますます合成テキストから学習するようになる。これらのテキストがオンラインとオフラインの公共空間を満たすと、将来の訓練のための言語生態系ははるかに制限され、人間の言語に内在する社会的変化との接触が減少する。
この傾向は、言語の多様性の低下だけでなく、既存の偏見の固定化ももたらす。データの変動が減少し、確立されたパターンが支配的になると、訓練資料の偏見が強化される可能性がある。同時に、執筆はより反復的で均質化し、構文構造を繰り返し、中立的なトーン、決まり文句、予測可能な段落構成へと向かう。ジャーナリズムは情報を伝えるだけでなく、専門的と通俗的なレジスターの間を仲介し、強調点を決め、語彙を翻訳し、表現形式を教える。公共言語が均一になりすぎると、新しい情報に応じて執筆を微調整するジャーナリズムの能力が制限される。
結局、珍しい専門用語や一般的でない構文、語用論的なニュアンス(皮肉、曖昧さ、視点の変化など)が減少する。言語の革新はしばしば予期せぬ逸脱、ありそうもない語法、新しい現象を命名する局所的な方法から始まる。システムが常に統計的に最も可能性の高い選択肢を優先するなら、新興言語が流通し定着する余地は減る。これは人間と機械の抽象的な二分法ではなく、人間社会の偶然の出来事にさらされる言語と、事前に学習された規則性から導き出されたテキスト出力との具体的な違いである。
言語があいまいになったり、予測可能になったり、反復的になったりすると、社会が問題を記述し、意見を明確にし、公共の議論に参加するための道具が貧弱になる。インターネットが合成テキストで満たされると、読者、ジャーナリスト、機関はすべて多様性の少ない公共言語にさらされる。一部の研究は合成テキストがオンライン生態系を「汚染」すると述べ、実データと人工データの混合方法がさらなる衰退を防ぐために重要であることを示している。
しかし、すべてのAI使用が必然的に衰退を導くわけではない。研究は、合成データが実データと混合され完全に置き換えられない場合、モデル崩壊の振る舞いは異なり、誤差を抑制できることを示している。問題はAIを時々使うことや、合成データと人間のデータを賢明に組み合わせることにあるのではなく、人間の執筆を大規模に置き換え、その置き換えを生きている言語として再利用することにある。
AIがジャーナリストの仕事の一部になるにつれ、ジャーナリズムはより効率的になっている。しかし、社会は何を失うのか?もし報道機関がその執筆、翻訳、命名、新しい言語を教える役割を部分的にも放棄すれば、ジャーナリストの仕事日だけでなく、公共言語が最も豊かになり、更新され、拡大してきた場の一つを弱めることになる。