2026-06-10站内改写1 分钟阅读更新: 2026-06-12

一项经典脑力测试揭示了AI的最大弱点

研究人员对顶级AI模型进行了心理学中经典的注意力测试（斯特鲁普任务），发现了一个重大缺陷：当任务变得更长、更复杂时，模型的表现急剧下降。一些领先系统的准确率从90%以上降至几乎完全失败。

一项新研究发现，尽管人工智能系统能够撰写文章、回答问题并解决复杂问题，但在处理需要持续注意力的任务时，它们可能不如人类。研究人员通过经典的心理测试——斯特鲁普任务，对多个领先AI模型进行了评估，结果揭示了它们在处理注意力方面的显著缺陷。

斯特鲁普任务是心理学中用于测量注意力和自我控制的经典实验。测试中，颜色词（如“红”、“蓝”、“绿”）以不同颜色的墨水显示，有时词义与墨水颜色一致，有时则冲突。参与者需要忽略文字本身，而专注于说出墨水的颜色。这一过程需要大脑抑制自动阅读单词的习惯，对执行控制能力要求较高。

研究人员对GPT-4o、Claude 3.5 Sonnet、GPT-5、Claude Opus 4.1和Gemini 2.5等模型进行了测试。在包含五个颜色的短列表中，模型表现良好，即使颜色与词义不匹配时也能准确识别。然而，当列表长度增加时，结果发生了显著变化。GPT-4o在5个词时准确率为91%，但10个词时降至57%，40个词时仅为15%。Claude 3.5 Sonnet在20个词时仍保持稳定，但在40个词时准确率骤降至24%。其他模型也呈现出类似模式。

更复杂的混合列表（同时包含一致和不一致的词）进一步加剧了问题，某些情况下不一致项的准确率接近于零。研究人员认为，AI模型难以持续遵循识别墨水颜色的指令，反而逐渐回归到它们被大量训练的任务——读取单词本身。这与人类表现形成鲜明对比：尽管人也倾向于阅读单词，但大多数人能保持稳定的准确率，即使面对长列表和冲突项。

研究指出，这一发现凸显了人类注意力与机器注意力之间的根本差异。人类能够集中目标并过滤干扰信息，而当前AI模型在任务增加时容易失去认知控制。虽然现代AI在语言生成和推理方面表现出色，但其注意力机制与生物大脑不同，存在局限性。这项研究提醒我们，即便是最先进的AI系统在需要持续注意力并抵抗干扰的任务中仍有明显短板。