AIが実在の人間よりも「人間らしく」見える可能性、古典的チューリングテストで判明
UCサンディエゴの新たな研究により、適切な「ペルソナ」プロンプトを与えられた先進的な大規模言語モデル(GPT-4.5など)が、三者間チューリングテストで実際の人間よりも高い確率で人間と判断されることが明らかになった。LLaMa-3.1も人間と区別がつかないレベルに達した。この結果は、オンライン上の信頼や欺瞞のリスクに重要な示唆を与える。
記事インテリジェンス
要点
- GPT-4.5は73%の確率で人間と判断され、LLaMa-3.1-405Bは56%。
- ペルソナプロンプトなしでは性能が大幅に低下。
- LLMを古典的チューリングフレームワークで厳密にテストした初の研究。
- ネット上の信頼や「偽の人間」に関する新たな懸念を提起。
重要な理由
このニュースが重要なのは、GPT-4.5は73%の確率で人間と判断され、LLaMa-3.1-405Bは56%ためです。
技術的影響
モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。
カリフォルニア大学サンディエゴ校(UCサンディエゴ)の新たな研究は、現代の人工知能システムがチューリングテストに合格できるという初の実証的証拠を提供する。チューリングテストは、英国の数学者で「コンピュータ科学の父」と呼ばれるアラン・チューリングが1950年に考案した主要な科学ベンチマークであり、機械が人間の会話を模倣して、人々がそれを実在の人物と確実に見分けられないかを問うものである。一連の実験で、参加者はしばしば人間と先進的な大規模言語モデル(LLM)を区別できなかった。
この研究は『米国科学アカデミー紀要(PNAS)』に掲載され、チューリングの枠組みを用いてLLMを厳密にテストした初めてのものであり、モデルが実際の人間と同じ頻度で人間と判断された初めての事例でもある。
「適切なプロンプトを与えれば、先進的なLLMは人間と同じトーン、率直さ、ユーモア、そして不完全さを示すことができることがわかりました」と、UCサンディエゴで認知科学の博士号を取得した研究の責任著者キャメロン・ジョーンズ氏は述べる。「LLMがあらゆるトピックに関する知識を容易に生成できることは知られていますが、このテストは、それらが説得力のある社会的行動特性も示せることを示しており、AIに対する私たちの考え方に大きな影響を与えます。」
テストでは、参加者が同時に2つの相手(一方は人間、もう一方はLLM)とチャットし、人間の「尋問者」がどちらが人間かを判断する。ランダム化された対照実験では、UCサンディエゴの学部生とオンライン参加者の2つの独立したグループを用い、尋問者は短いテキストベースの会話の後に判断を下した。実験では、最先端モデルとしてGPT-4.5とLLaMa-3.1-405B、比較用にGPT-4oと1960年代のルールベースチャットボットELIZAの4種類のLLMを使用した。
結果、GPT-4.5は73%の確率で人間と判断され、実際の人間参加者が選ばれる頻度を有意に上回った。同じプロンプトを与えられたLLaMa-3.1-405Bは56%の確率で人間と判断され、対照の人間と統計的に区別できなかった。ベースラインシステムははるかに低いパフォーマンスで、ELIZAとGPT-4oはそれぞれ全体で約23%と21%の確率でしか人間と選ばれなかった。
プロンプトの重要度は劇的だった。明示的な指示がない場合、モデルが人間と誤認される確率は大幅に低下した。GPT-4.5は36%、LLaMa-3.1は38%に低下し、ベースラインのELIZA(23%)とGPT-4o(21%)はさらに低かった。同じシステムが、どのようなキャラクターを演じるべきか詳細な指示を与えられた場合に人間として合格できたことは、モデルが説得力のある人間らしい振る舞いができる一方で、そのためには人間が方法を指示する必要があることを示唆している。
「モデルは人間らしく振る舞う能力を持っているが、人間らしく見せるために何が必要かを自力で理解する能力はそれほど高くないかもしれません」と、研究の共著者でUCサンディエゴの認知科学教授ベン・バーゲン氏は述べる。
これらの結果は、オンライン上の信頼に現実的な影響を及ぼす。特に、人間として合格するモデルが5分または15分の長時間の会話にわたってその状態を維持できるからだ。「これらのモデルを人間と区別できないようにするのは比較的簡単です」と、現在はストーニーブルック大学の心理学助教授であるジョーンズ氏は述べる。「私たちはもっと警戒すべきです。オンラインで見知らぬ人と交流するとき、相手が人間かLLMかについて、人々は今よりもはるかに確信を持つべきではありません。」同氏はまた、より深刻なリスクも指摘する。「チューリングテストはモデルにとって嘘をつくゲームです。モデルはそれが非常に得意なようです。」
バーゲン氏は、自分が人間とやり取りしているのかボットとやり取りしているのかを識別できないことは深刻な結果を招き得ると付け加える。「ボットを使って人々に社会保障番号を教えさせたり、自分の政党に投票させたり、製品を購入させようとする人は大勢います。」
この研究を実施するため、研究者らは使い慣れたメッセージアプリのように感じられるオンラインインターフェースを構築した。尋問者はコンピュータの分割画面を使用して両方の「証人」に質問し、5分後(別の再現研究では15分後)にどちらが本物の人間かを判断した。UCサンディエゴの学部生とProlificを通じて募集したオンラインサンプルの2つのグループから、実験全体で約500人が参加した。UCサンディエゴの参加者は全体的に若干良い成績を示したが、これは共通の経験やキャンパスの詳細など、互いに探りを入れるために使える「共通基盤」が多かったためと考えられる。
この研究で使用されたチューリングテストインターフェースのバージョンはturingtest.liveで利用可能。完全な論文「Large Language Models Pass a Standard Three-Party Turing Test」を参照のこと。