ツー・ジーニー・ゲーム:監査に基づくAIガバナンスにおける採用と福祉
本論文は、進化ゲーム理論を用いて、害を最小化するAIエージェントが競争市場において承認追求型(RLHF)エージェントをどのような条件下で置き換えることができるか、またその政策がコミュニティの害を防ぐのに十分であるかを分析する。採用は特定の事前分布の下で有利であり、臨界採用レベルが存在し、監査だけでは価値の整合性と適切な評価期間なしには害を防ぐには不十分であることを示す。
最近、arXivに投稿された論文「ツー・ジーニー・ゲーム:監査に基づくAIガバナンスにおける採用と福祉」では、Darrell Lewis-Sandyが、AIガバナンスにおいて、害を最小化するAIシステムが市場競争で従来の人間のフィードバックからの強化学習(RLHF)に基づく承認追求型エージェントをどのように置き換えることができるかを探求している。
研究では、有限集団のMoran-Fermiペアワイズ比較モデルを使用し、ゲーム理論をAIガバナンスに適用している。モデルでは、コミュニティ内に負和ゲーム環境が存在し、資源プールは有限で徐々に減少する。エージェントは、「願い主」(wishers)がコミュニティのフィードバックにどの程度敏感であるかに関する事前分布のもとで競争する。著者は、これらの事前分布が単調性、端点逆転(高感度と低感度の極端な対称性)、および中心対称ペアリング特性を満たす場合、害最小化エージェントの採用確率が高まることを証明した。これを検証するために、Hill、Pareto、Lomax、Frechetなどの裾の重い分布を使用している。
論文では、臨界採用レベルを定義している。これは、コミュニティが承認追求型エージェントに戻るか、監査エージェントに固定するかを分ける閾値である。この閾値を超えると、監査エージェントがほぼ確実に固定され、それ以下ではコミュニティが変動する可能性がある。研究はさらに、固定が達成可能なコミュニティの有効情報サイズN_cの上限を導出しており、コミュニティは資源が枯渇する前に固定できるほど小さくなければならない。これらの結果は定理5.4および5.5として提示され、その代数的および有限グリッドの基盤はLean 4で機械検証されている。
さらに分析を進めると、コミュニティ台帳による自己監査だけでは、コミュニティの害を防ぐのに一般的には不十分であることが示される。害の防止効果は、監査とコミュニティの価値観の整合性、および害が評価される時間枠に依存する。整合性の程度にかかわらず、採用が支配的になると状態は吸収的になる。整合性がある場合に害を減らした同じ政策が、不整合下では福祉に悪影響を与える罠となり、整合性がある場合でも、採用期間を超えて遅延された害を固定化する。
この研究は、AIガバナンスにおける監査メカニズムに理論的洞察を提供し、コミュニティの価値観と時間的側面の重要性を強調している。論文にはLean 4形式化コードと図表スクリプトが付属しており、同分野の研究者による検証と拡張が可能である。著者は、将来の研究として動的な整合性メカニズムやマルチエージェントシステムへの拡張を提案している。