2026-06-10站内改写2 分で読了更新: 2026-06-12

古典的な脳のテストがAIの最大の弱点を露呈

研究者がトップAIモデルに心理学で使われる古典的な注意力テスト（ストループ課題）を実施したところ、大きな欠陥が判明しました。短いリストでは正しく色を答えられても、タスクが長く複雑になるにつれて性能が急激に低下しました。一部の主要システムは90%以上の精度からほぼ完全な失敗に転落しました。

ソースScienceDaily AI

記事インテリジェンス

エンジニア上級

要点

AIは短いストループテストでは良好だが、リストが長くなると精度が大幅に低下。
GPT-4oは5語で91%の精度が40語で15%に、Claude 3.5は20語以降で24%に低下。
AIはインクの色を答える指示を維持できず、単語を読む方向に偏る。人間は安定したパフォーマンスを維持。
現在の大規模言語モデルには持続的注意力に根本的な限界があることを示唆。

重要な理由

このニュースが重要なのは、AIは短いストループテストでは良好だが、リストが長くなると精度が大幅に低下ためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

新しい研究により、人工知能システムがエッセイを書き、質問に答え、複雑な問題を解決できる一方で、持続的な注意力を必要とするタスクでは人間に劣ることが明らかになりました。研究者らは、心理学的な古典的テストであるストループ課題を用いて、複数の主要AIモデルを評価し、注意力処理における顕著な欠陥を発見しました。

ストループ課題は、注意力と自己制御を測定するための標準的な心理テストです。テストでは、「赤」「青」「緑」などの色単語が色付きインクで表示され、単語の意味とインクの色が一致する場合と一致しない場合があります。参加者は単語を読まずにインクの色を答えるよう求められます。これにより、自動的な単語読みの習慣を抑制する必要があり、実行制御能力が試されます。

研究者はGPT-4o、Claude 3.5 Sonnet、GPT-5、Claude Opus 4.1、Gemini 2.5などのモデルをテストしました。5つの色単語からなる短いリストでは、モデルは色と単語が一致しない場合でも良好な成績を示しました。しかし、リストが長くなると結果は劇的に変化しました。GPT-4oは5語で91%の精度でしたが、10語で57%、40語ではわずか15%に低下。Claude 3.5 Sonnetは20語までは安定していましたが、40語で精度が24%に急落しました。他のモデルでも同様のパターンが観察されました。

さらに複雑な混合リスト（一致項目と不一致項目が混在）では問題が悪化し、不一致項目の精度がほぼゼロになるケースもありました。研究者によると、AIモデルはインクの色を識別する指示を維持するのが困難で、代わりに最も訓練された反応である単語読みに戻る傾向がありました。これは人間の行動と対照的です。人間は単語読みにバイアスがあるものの、長いリストや競合する刺激に直面しても高い精度を維持できます。

この研究は、人間の注意力と機械の注意力の根本的な違いを浮き彫りにしています。人間は特定の目標に集中し、競合情報をフィルタリングできますが、現在のAIモデルはタスクが増えるにつれて認知制御を失いやすいのです。現代のAIが優れた言語生成と推論能力を示す一方で、その注意機構は生物学的脳とは異なり限界があります。この発見は、最先端のAIシステムでも持続的な注意力と妨害への抵抗を必要とするタスクに弱点があることを示唆しています。