AIライティングがなぜ劣るのか:情報理論による分析
この記事は、情報理論の観点からAI生成テキストが人間の作家特有の声を欠く理由を説明します。RLHFなどの調整技術はモデルを低分散の「アノテーター合意方言」に押しやり、プロンプトや温度調整では人間のスタイルの構造的不規則性を再現できません。
近年、AIライティングツールが生成するテキストは、人間の作家に特有の個性的な声を欠き、画一的になりがちです。この問題を、SF愛好家でありソフトウェアエンジニアでもある筆者が情報理論の観点から解説しています。人間の作家の「声」はランダムでも平均的でもなく、特定の確率分布(作者分布)であり、低頻度だが影響の大きい選択(語彙や構文など)によって特徴づけられます。例えば、テッド・チャンの文体は構文的に平易ですが意味的に密度が高く、アーシュラ・K・ル=グウィンの文体は明確で地に足がつきながら叙情的です。これらの独自性はKLダイバージェンスによって定量化できます。モデルの出力分布と特定の作者の分布との間のKLダイバージェンスが大きく構造化されているとき、私たちは「声」を聞くのです。
AIモデルは事前学習段階で広範な人間テキストの分布(Q_base)を学習し、ほとんどすべての作者分布を近似する能力を潜在空間に持っています。しかし、RLHFなどの調整技術により、モデルは人間の好みから導かれた報酬信号に対して高いスコアを得る出力を生成するように最適化されます。評価者(ギグワーカーや専門家)は、個性的な書き方に対して評価のばらつきが大きくなりますが、無難で対称的で慎重な応答は安定した高得点を得ます。最適化アルゴリズムは期待報酬を最大化するために分散を抑制する方向に働き、その結果、モデルの出力は「アノテーター合意方言」——ホテルのロビーの装飾のような、安全だが個性のない表現——に収束します。新しい調整技術は多様性を保持しようとしていますが、それでも「好ましい」出力の概念に最適化されるため、高分散のリスクを取るスタイルは抑制されます。
スタイルを模倣するためのプロンプト(例:「1920年代のハードボイルド探偵のスタイルで書いて」)は、分布の平均をシフトさせるだけで、分散構造を再現できません。モデルは目標スタイルの一般的な特徴を捉えますが、すべてのバースト性を平滑化し、結果としてパロディのようなテキストになります。人間のスタイルは構造化された不規則性に依存しています。著者は基本リズムを持ちながらも、断片の挿入、特徴的でない動詞の使用、感情効果のための文のねじれなどによって意図的にそれを破ります。計算文体学では、文長時系列のハースト指数を用いて人間の文章に見られる長距離依存性を測定できますが、AIテキストにはこれが欠けています。
AIの分布を広げる一般的な方法である温度スケーリングは、盲目的にランダムノイズを導入するだけであり、テキストを「不自然に滑らか」から「不自然にランダム」に遷移させるだけで、人間らしさを通過しません。top-pサンプリングやtop-kフィルタリングなどの高度なデコード戦略も、推論時の介入に過ぎず、調整中に形成されたモデルの動作哲学を変えることはできません。重要な点として、調整によってベースモデルの潜在的な多様性は消えていません。事前学習済みの重みには依然としてQ_baseの豊かさがエンコードされており、表現工学などの新興技術によって抑制された分散を部分的に回復できる可能性があります。ただし、これらは研究段階であり、一般公開されたAI製品では利用できません。また、長文脈の学習もわずかに改善をもたらしますが、注意機構はコンテキストが大きくなると減衰し、やがて一様分布に戻ります。
結論として、RLHFに関連する設計上の選択は、AIの「声」を誰もが認めるよりも長く検出可能にし続けるでしょう。著者は、読者がお気に入りの作家を読む際にKLダイバージェンスを自ら特定してみることを勧めています。これはテキストの楽しみを増やすとともに、LLMによるスキル低下の時代に新しい知識を実践し内面化する良い訓練になります。記事はJoe Stechによって執筆されました。彼は年刊アンソロジーシリーズ『Think Weirder: The Year's Best Science Fiction Ideas』の編集者であり、Arm社でプリンシパルソリューションアーキテクトとして開発者およびプラットフォームの有効化に携わっています。