一项经典脑力测试揭示了AI的最大弱点
研究人员对顶级AI模型进行了心理学中经典的注意力测试(斯特鲁普任务),发现了一个重大缺陷:当任务变得更长、更复杂时,模型的表现急剧下降。一些领先系统的准确率从90%以上降至几乎完全失败。
- AI在短列表的斯特鲁普测试中表现良好,但随着列表长度增加,准确率大幅下降。
- GPT-4o在5个词时准确率91%,40个词时降至15%;Claude 3.5在20个词后准确率骤降至24%。
Research news syndication source; summary-only unless authorization is obtained.
研究人员对顶级AI模型进行了心理学中经典的注意力测试(斯特鲁普任务),发现了一个重大缺陷:当任务变得更长、更复杂时,模型的表现急剧下降。一些领先系统的准确率从90%以上降至几乎完全失败。
最新研究认为,仅凭行为无法判断意识是否存在,无论是能讨论哲学的聊天机器人还是寻找花蜜的蜜蜂。科学家们转而关注大脑和计算机的内部机制,结论是当前的人工智能很可能没有意识,但保留了对昆虫和未来机器具备意识的可能性。
NASA正在测试一款下一代太空计算机芯片,该芯片具备抗辐射能力,性能比现有航天计算机提升数百倍,能够在严苛的太空环境中生存。这项技术有望实现AI驱动的航天器、更快的科学发现以及更智能的月球和火星任务。
一种受量子启发的算法破解了传统超算几乎无法触及的难题。研究人员用它模拟了极其复杂的量子材料——准晶,为新一代量子器件和高效电子学铺平道路。该成果有助于设计先进拓扑量子比特和未来量子计算机材料。
研究发现,日常说话模式与执行功能密切相关。通过AI分析自然对话,可惊人准确地预测认知表现,有望开发基于语音的早期痴呆检测工具,早于传统测试。
瑞士洛桑联邦理工学院(EPFL)的研究人员开发出Synthegy系统,化学家可使用自然语言指导合成与反应规划。该系统结合大型语言模型与传统算法,对最佳路径进行评分并解释理由。双盲研究中,36位化学家对系统结果的同意率达71.2%。
几十年来,心理学家一直在争论人类思维能否用统一理论解释。一个名为Centaur的AI模型曾声称能模拟160种认知任务,但新研究表明它可能只是过拟合,并非真正理解。
研究人员警告,高度逼真的AI驱动角色可能很快充斥社交媒体,它们模仿真人,协调行动,大规模影响舆论。与传统机器人不同,这些AI能够适应、协调并优化信息传递,制造虚假的共识感。早期预警信号已出现在全球选举中,如深度伪造和假新闻网络。专家认为下一届选举将是这一技术的真正考验。
爱荷华州立大学的一项新研究发现,新闻写作者在使用拟人化语言描述人工智能时比预期更谨慎,但即使偶尔使用,也可能在无意中误导公众对AI能力的认知。研究分析了超过200亿词的新闻语料库,发现“需要”等心理动词常出现于非拟人语境,而“知道”等词则暗示人类特质。研究者强调,语言选择应关注语境和影响。
哈佛大学研究发现,在拥挤环境中,给机器人运动添加适量随机性可以防止堵塞并提高效率。
瑞典查尔姆斯理工大学的研究人员提出了一种名为“巨型超原子”的新型量子系统理论,将巨型原子和超原子的概念结合,为保护、控制和分发量子信息提供了新方法,有望推动大规模量子计算机的构建。
南加州大学工程师团队研发出一种突破性存储器件,可在700°C高温下持续工作,远超当前电子设备的极限。该忆阻器由钨、氧化铪和石墨烯制成,能在极端热环境中存储数据和执行计算,潜在应用包括太空探索、地热能和人工智能计算。