2026-05-30 21:44 UTC+9サイト内リライト3 分で読了更新: 2026-06-30 22:03 UTC+9

AIチャットボットをより役立つようにすると、人間の行動を模倣する能力が低下する——大規模研究で判明

208,000人の参加者と2,600万件の回答を対象とした大規模研究により、言語モデルを役立つチャットボットに変えるトレーニングが、人間の行動を再現する能力を弱めることが示された。この効果は新しいモデル世代ごとに悪化する。人口統計情報を与える一般的な方法も、個々の予測にはほとんど効果がない。

ソースThe Decoder著者: Jonathan Kemper

記事インテリジェンス

エンジニア上級

要点

ベースモデルは後訓練されたアシスタントバージョンよりも人間の行動予測で優れている。
ベースモデルとアシスタントモデルの差は世代ごとに拡大している。
人口統計情報を用いたプロンプトは個々の予測を改善しない。
行動モデリングに特化した微調整（Centaurなど）は予測の一致度を大幅に向上させる。

重要な理由

このニュースが重要なのは、ベースモデルは後訓練されたアシスタントバージョンよりも人間の行動予測で優れているためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

このパネルは AI が生成し、正確性を確認済みです。

大規模な研究により、生の言語モデルを役立つチャットボットに変えるトレーニングプロセスが、人間の行動を模倣する能力を低下させることが明らかになった。この効果は新しいモデルが登場するたびに悪化している。

言語モデルは、政策措置への反応予測、精神科医の臨床トレーニングのシミュレーション、学生の学習パターンのモデル化など、人間の被験者の代用としてますます利用されている。しかし、ヘルムホルツ・ミュンヘンを含む国際研究コンソーシアムによる新しい研究は、厄介な結論に達した。言語モデルを有用なアシスタントに変えるトレーニングステップそのものが、人間の行動をモデル化する能力を低下させるのである。

この研究は、行動実験の記録からなる新データセットPsych-201に基づいている。約20万8000人の参加者と約2600万件の個別回答をカバーし、これまでの同種のコレクションより数倍大きい。各データポイントは、実験全体を通じた参加者の記録と、年齢、国籍、アンケート回答などの詳細なメタデータを含む。データセットは35以上の機関の研究者によるオープンな研究協力を通じて構築された。

研究者らは、Qwen3、Llama3、OLMo 3ファミリーのモデルを比較し、ベースモデルとそのさまざまな後訓練バリアントをテストした。ベースモデルはテキスト内の次の単語を予測するようにのみ訓練されている。そこから、追加のトレーニングにより、指示追従、段階的推論、画像処理用に調整されたバージョンが生成される。評価指標は、各モデルが人間の参加者による実際の回答をどの程度正確に予測するかである。

結果はすべてのファミリーとサイズで一貫していた。ベースモデルはその後訓練された派生モデルよりも人間の行動をよく予測する。この効果はすべての一般的なトレーニング目標で現れ、推論モデルで最も強く、次いで命令チューニングとビジョン拡張で見られた。ほぼすべての直接比較で、ベースモデルが専門化されたバリアントよりも優れていた。

一つの明白な反論は、アシスタントモデルがより決定論的に回答し、人間の行動の自然なばらつきを捉えられないというものだ。研究者らは、離散的な回答オプションを持つタスクのサブセットで精度分析を行いこれを検証した。後訓練モデルは依然として性能が悪く、決定性の高さだけが原因ではないことが示された。

ベースモデルはQwen2からQwen2.5、Qwen3へと世代を重ねるごとに人間の行動予測が向上しているが、派生アシスタントモデルとのギャップは拡大し続けている。後訓練の進歩が人間の行動からの乖離を悪化させている。

最大の歪みは言語タスクと推論で見られる。研究者らはもっともらしい説明を提示している。ベースモデルは本質的に人間の言語のモデルであり、言語処理タスクに適している。後訓練技術（人間のフィードバックからの強化学習など）は、元の目的からユーザーフレンドリーまたは規範的に正しい回答へと押しやる。推論でも同様である。人間の意思決定はヒューリスティックスと系統的バイアスによって形成され、ベースモデルはそれを捕捉している。推論トレーニングは論理的に正しい回答を最適化するため、行動シミュレーションに重要な人間の癖を上書きする。

第二の発見は、広く使われているテクニックに関するものである。言語モデルに参加者固有の情報を与え、特定の役割を演じさせる方法だ。この研究では、各人の人口統計情報を実験前に追加するインタビュー形式をとった。プロンプトには、年齢、性別、国籍、教育、臨床診断、アンケートスコアが含まれた。効果は実質的にゼロだった。年齢差が情報を与えるはずの発達心理学実験に限定しても同様だった。以前の研究では、ペルソナプロンプトが集団レベルで人間らしい応答分布を生み出すことが示されていたが、新しい研究は、それらが実際に個人の行動を予測するのか、表面的にもっともらしく見えるだけなのか疑問視している。

著者らは、自らの発見を既知の問題のバリエーションと見ている。特定の目標に向けた追加トレーニングは、事前トレーニングで獲得された能力を低下させる可能性がある。これが硬直的な限界かどうかをテストするため、彼らはCentaurに注目した。行動データの一部で特に微調整されたモデルである。Centaurはトレーニングに含まれていなかった新しいタスクでも人間の行動と高い一致を示した。したがって、追加トレーニングは、論理的正しさではなく行動モデリングを対象とする場合にのみ役立つ。

研究実践への教訓は明らかだ。便利で容易に利用可能なアシスタントモデルは、行動シミュレーションに自動的に最適とは限らない。研究者らは、生のベースモデルか、行動シミュレーション用に特別に訓練されたバリアントを推奨している。コードとデータはHugging FaceとGitHubで入手可能である。

チャットボットモデルがデジタル被験者として欠点を持つことは新しい発見ではない。最近の9つのオープンソース言語モデルの研究では、より人間らしい出力を最適化すると事実の正確さが犠牲になり、分類器がAI応答を70～80%の精度で特定できることがわかった。ペルソナテクニックも期待よりも効果が低かった。別の研究では、モデルは弱いまたは強い学習者としての役割をほとんど演じられず、成功率は1%未満の変動しかなかった。そして推論に関しては、深いギャップが依然として存在する。17万以上の推論トレースの分析により、推論モデルは人間とは異なる思考をし、一種の連続オートパイロットに陥ることが示された。