人々はAIに何を本当に望んでいるのか?選好の多様性をマッピング
75か国1500件の自由回答を分析した結果、人々がAIに求める価値観は極めて多様で矛盾していることが判明。ほとんどの価値観は回答者の4分の1未満しか挙げず、「真実性」だけが49%で例外だったが、その定義は「根拠のある主張」「専門家の意見」「不人気な見解」など様々。一部の能力(人間らしさ)や機能(ガードレール)は賛否両論。研究者は、現在のRLHFによる調整方法は文脈に応じた複雑な選好を単一モデルに押し付け、「認識的暴力」を引き起こすと警告している。
大規模言語モデル(LLM)は、人間のフィードバックからの強化学習(RLHF)によって微調整され、人々の好みや価値観に合わせることが多い。しかし、2026年のACM公平性・説明責任・透明性会議(FAccT '26)に採択された新しい論文は、この手法の根本的な欠陥を明らかにしている。研究者のJulia Sepúlveda CoelhoとScott A. Haleは、75か国からのPRISMデータセットにある1500件の自由回答を分析し、人々がAIに本当に何を求めているかを調査した。
結果は、好みが非常に多様で、しばしば相反することを示している。公平性、誠実性、無害性などのほとんどの価値観は、回答者の4分の1未満によってのみ言及された。唯一の例外は「真実性」で、49%の回答者がAIに真実の情報を要求した。しかし問題は、「真実性」の理解が人によってまったく異なることだ。ある人々は出典のある主張を求め、別の人々は専門家の意見を期待し、さらに不人気な見解を要求する人もいる。これらの定義は、根本的に異なり、互いに両立しない可能性がある認識論的基盤に基づいている。
さらに興味深いことに、特定のAI能力は明白な論争を引き起こしている。例えば、モデルが人間らしく振る舞うべきかどうか?一部のユーザーは擬人化された対話を好む一方で、他のユーザーは強く拒否する。同様に、AIのガードレール(安全策)も、必要な保護と見なす人と、自由を制限するものと見なす人で意見が分かれた。研究ではまた、好みを表現する際に、人々がしばしば文脈上の区別をすることがわかった。例えば、「デフォルトでは」AIがどう行動すべきかと、「リクエストされた場合」ではどうあるべきかを区別する。このような微妙な違いは、RLHFで一般的に使われる二値比較(「AはBより良い」など)では捉えられない。
これらの発見は、現在のアライメント実践の根本的な問題を浮き彫りにする。49%のユーザーが「真実性」を要求しても、その定義が異なる場合、単一の報酬モデルがすべてを満たすことはほぼ不可能だ。論文は、ユーザーが正確さを明確に要求しているにもかかわらず、資金豊富なモデルで高い幻覚率が続いていることは、現在の手法が実際の好みを特定できていないことを示していると指摘する。研究者らは、現在のアプローチは、状況に応じた、論争の多い不完全なシグナルを普遍的な選好モデルに平坦化しており、この行為は一部の学者によって「認識的暴力」(epistemic violence)と特徴づけられていると述べている。
この研究は、AIアライメントの分野に深刻な警告を発している。「人間の価値観」に合わせる前に、まず人間の好みの内在的な多様性を認識し尊重しなければならない。将来のアライメント戦略は、「単一目標の最適化」から「多目標の交渉」へ、またはユーザーが状況に応じてAIの振る舞いを動的に調整できるようにする方向へと進むべきかもしれない。