2026-06-10站内改写1 分鐘閱讀更新: 2026-06-12

一項經典腦力測試揭示了AI的最大弱點

研究人員對頂級AI模型進行了心理學中經典的注意力測試（斯特魯普任務），發現了一個重大缺陷：當任務變得更長、更復雜時，模型的表現急劇下降。一些領先系統的準確率從90%以上降至幾乎完全失敗。

一項新研究發現，儘管人工智慧系統能夠撰寫文章、回答問題並解決複雜問題，但在處理需要持續注意力的任務時，它們可能不如人類。研究人員透過經典的心理測試——斯特魯普任務，對多個領先AI模型進行了評估，結果揭示了它們在處理注意力方面的顯著缺陷。

斯特魯普任務是心理學中用於測量注意力和自我控制的經典實驗。測試中，顏色詞（如“紅”、“藍”、“綠”）以不同顏色的墨水顯示，有時詞義與墨水顏色一致，有時則衝突。參與者需要忽略文字本身，而專注於說出墨水的顏色。這一過程需要大腦抑制自動閱讀單詞的習慣，對執行控制能力要求較高。

研究人員對GPT-4o、Claude 3.5 Sonnet、GPT-5、Claude Opus 4.1和Gemini 2.5等模型進行了測試。在包含五個顏色的短列表中，模型表現良好，即使顏色與詞義不匹配時也能準確識別。然而，當列表長度增加時，結果發生了顯著變化。GPT-4o在5個詞時準確率為91%，但10個詞時降至57%，40個詞時僅為15%。Claude 3.5 Sonnet在20個詞時仍保持穩定，但在40個詞時準確率驟降至24%。其他模型也呈現出類似模式。

更復雜的混合列表（同時包含一致和不一致的詞）進一步加劇了問題，某些情況下不一致項的準確率接近於零。研究人員認為，AI模型難以持續遵循識別墨水顏色的指令，反而逐漸迴歸到它們被大量訓練的任務——讀取單詞本身。這與人類表現形成鮮明對比：儘管人也傾向於閱讀單詞，但大多數人能保持穩定的準確率，即使面對長列表和衝突項。

研究指出，這一發現凸顯了人類注意力與機器注意力之間的根本差異。人類能夠集中目標並過濾干擾資訊，而當前AI模型在任務增加時容易失去認知控制。雖然現代AI在語言生成和推理方面表現出色，但其注意力機制與生物大腦不同，存在侷限性。這項研究提醒我們，即便是最先進的AI系統在需要持續注意力並抵抗干擾的任務中仍有明顯短板。