AI News HubLIVE
站内改写1 分钟阅读

一项经典脑力测试揭示了AI的最大弱点

研究人员对顶级AI模型进行了心理学中经典的注意力测试(斯特鲁普任务),发现了一个重大缺陷:当任务变得更长、更复杂时,模型的表现急剧下降。一些领先系统的准确率从90%以上降至几乎完全失败。

一项新研究发现,尽管人工智能系统能够撰写文章、回答问题并解决复杂问题,但在处理需要持续注意力的任务时,它们可能不如人类。研究人员通过经典的心理测试——斯特鲁普任务,对多个领先AI模型进行了评估,结果揭示了它们在处理注意力方面的显著缺陷。

斯特鲁普任务是心理学中用于测量注意力和自我控制的经典实验。测试中,颜色词(如“红”、“蓝”、“绿”)以不同颜色的墨水显示,有时词义与墨水颜色一致,有时则冲突。参与者需要忽略文字本身,而专注于说出墨水的颜色。这一过程需要大脑抑制自动阅读单词的习惯,对执行控制能力要求较高。

研究人员对GPT-4o、Claude 3.5 Sonnet、GPT-5、Claude Opus 4.1和Gemini 2.5等模型进行了测试。在包含五个颜色的短列表中,模型表现良好,即使颜色与词义不匹配时也能准确识别。然而,当列表长度增加时,结果发生了显著变化。GPT-4o在5个词时准确率为91%,但10个词时降至57%,40个词时仅为15%。Claude 3.5 Sonnet在20个词时仍保持稳定,但在40个词时准确率骤降至24%。其他模型也呈现出类似模式。

更复杂的混合列表(同时包含一致和不一致的词)进一步加剧了问题,某些情况下不一致项的准确率接近于零。研究人员认为,AI模型难以持续遵循识别墨水颜色的指令,反而逐渐回归到它们被大量训练的任务——读取单词本身。这与人类表现形成鲜明对比:尽管人也倾向于阅读单词,但大多数人能保持稳定的准确率,即使面对长列表和冲突项。

研究指出,这一发现凸显了人类注意力与机器注意力之间的根本差异。人类能够集中目标并过滤干扰信息,而当前AI模型在任务增加时容易失去认知控制。虽然现代AI在语言生成和推理方面表现出色,但其注意力机制与生物大脑不同,存在局限性。这项研究提醒我们,即便是最先进的AI系统在需要持续注意力并抵抗干扰的任务中仍有明显短板。