一項經典腦力測試揭示了AI的最大弱點
研究人員對頂級AI模型進行了心理學中經典的注意力測試(斯特魯普任務),發現了一個重大缺陷:當任務變得更長、更復雜時,模型的表現急劇下降。一些領先系統的準確率從90%以上降至幾乎完全失敗。
一項新研究發現,儘管人工智慧系統能夠撰寫文章、回答問題並解決複雜問題,但在處理需要持續注意力的任務時,它們可能不如人類。研究人員透過經典的心理測試——斯特魯普任務,對多個領先AI模型進行了評估,結果揭示了它們在處理注意力方面的顯著缺陷。
斯特魯普任務是心理學中用於測量注意力和自我控制的經典實驗。測試中,顏色詞(如“紅”、“藍”、“綠”)以不同顏色的墨水顯示,有時詞義與墨水顏色一致,有時則衝突。參與者需要忽略文字本身,而專注於說出墨水的顏色。這一過程需要大腦抑制自動閱讀單詞的習慣,對執行控制能力要求較高。
研究人員對GPT-4o、Claude 3.5 Sonnet、GPT-5、Claude Opus 4.1和Gemini 2.5等模型進行了測試。在包含五個顏色的短列表中,模型表現良好,即使顏色與詞義不匹配時也能準確識別。然而,當列表長度增加時,結果發生了顯著變化。GPT-4o在5個詞時準確率為91%,但10個詞時降至57%,40個詞時僅為15%。Claude 3.5 Sonnet在20個詞時仍保持穩定,但在40個詞時準確率驟降至24%。其他模型也呈現出類似模式。
更復雜的混合列表(同時包含一致和不一致的詞)進一步加劇了問題,某些情況下不一致項的準確率接近於零。研究人員認為,AI模型難以持續遵循識別墨水顏色的指令,反而逐漸迴歸到它們被大量訓練的任務——讀取單詞本身。這與人類表現形成鮮明對比:儘管人也傾向於閱讀單詞,但大多數人能保持穩定的準確率,即使面對長列表和衝突項。
研究指出,這一發現凸顯了人類注意力與機器注意力之間的根本差異。人類能夠集中目標並過濾干擾資訊,而當前AI模型在任務增加時容易失去認知控制。雖然現代AI在語言生成和推理方面表現出色,但其注意力機制與生物大腦不同,存在侷限性。這項研究提醒我們,即便是最先進的AI系統在需要持續注意力並抵抗干擾的任務中仍有明顯短板。