一項經典腦力測試揭示了AI的最大弱點
研究人員對頂級AI模型進行了心理學中經典的注意力測試(斯特魯普任務),發現了一個重大缺陷:當任務變得更長、更復雜時,模型的表現急劇下降。一些領先系統的準確率從90%以上降至幾乎完全失敗。
- AI在短列表的斯特魯普測試中表現良好,但隨着列表長度增加,準確率大幅下降。
- GPT-4o在5個詞時準確率91%,40個詞時降至15%;Claude 3.5在20個詞後準確率驟降至24%。
Research news syndication source; summary-only unless authorization is obtained.
研究人員對頂級AI模型進行了心理學中經典的注意力測試(斯特魯普任務),發現了一個重大缺陷:當任務變得更長、更復雜時,模型的表現急劇下降。一些領先系統的準確率從90%以上降至幾乎完全失敗。
最新研究認為,僅憑行為無法判斷意識是否存在,無論是能討論哲學的聊天機器人還是尋找花蜜的蜜蜂。科學家們轉而關注大腦和計算機的內部機制,結論是當前的人工智能很可能沒有意識,但保留了對昆蟲和未來機器具備意識的可能性。
NASA正在測試一款下一代太空計算機芯片,該芯片具備抗輻射能力,性能比現有航天計算機提升數百倍,能夠在嚴苛的太空環境中生存。這項技術有望實現AI驅動的航天器、更快的科學發現以及更智能的月球和火星任務。
一種受量子啓發的算法破解了傳統超算幾乎無法觸及的難題。研究人員用它模擬了極其複雜的量子材料——準晶,為新一代量子器件和高效電子學鋪平道路。該成果有助於設計先進拓撲量子比特和未來量子計算機材料。
研究發現,日常説話模式與執行功能密切相關。通過AI分析自然對話,可驚人準確地預測認知表現,有望開發基於語音的早期痴呆檢測工具,早於傳統測試。
瑞士洛桑聯邦理工學院(EPFL)的研究人員開發出Synthegy系統,化學家可使用自然語言指導合成與反應規劃。該系統結合大型語言模型與傳統算法,對最佳路徑進行評分並解釋理由。雙盲研究中,36位化學家對系統結果的同意率達71.2%。
幾十年來,心理學家一直在爭論人類思維能否用統一理論解釋。一個名為Centaur的AI模型曾聲稱能模擬160種認知任務,但新研究表明它可能只是過擬合,並非真正理解。
研究人員警告,高度逼真的AI驅動角色可能很快充斥社交媒體,它們模仿真人,協調行動,大規模影響輿論。與傳統機器人不同,這些AI能夠適應、協調並優化信息傳遞,製造虛假的共識感。早期預警信號已出現在全球選舉中,如深度偽造和假新聞網絡。專家認為下一屆選舉將是這一技術的真正考驗。
愛荷華州立大學的一項新研究發現,新聞寫作者在使用擬人化語言描述人工智能時比預期更謹慎,但即使偶爾使用,也可能在無意中誤導公眾對AI能力的認知。研究分析了超過200億詞的新聞語料庫,發現“需要”等心理動詞常出現於非擬人語境,而“知道”等詞則暗示人類特質。研究者強調,語言選擇應關注語境和影響。
哈佛大學研究發現,在擁擠環境中,給機器人運動添加適量隨機性可以防止堵塞並提高效率。
瑞典查爾姆斯理工大學的研究人員提出了一種名為“巨型超原子”的新型量子系統理論,將巨型原子和超原子的概念結合,為保護、控制和分發量子信息提供了新方法,有望推動大規模量子計算機的構建。
南加州大學工程師團隊研發出一種突破性存儲器件,可在700°C高温下持續工作,遠超當前電子設備的極限。該憶阻器由鎢、氧化鉿和石墨烯製成,能在極端熱環境中存儲數據和執行計算,潛在應用包括太空探索、地熱能和人工智能計算。