機器會有智能嗎?
微軟研究院的播客《未來的形狀》第一集中,主持人Doug Burger與研究人員Nicolò Fusi和Subutai Ahmad探討了當前AI系統是否真正具有智能。他們比較了基於Transformer的大語言模型與人腦的分佈式連續學習架構,討論效率、表徵、感知運動基礎等差異,以及未來AI可能需要什麼才能縮小差距。
在微軟研究院最新推出的播客系列《未來的形狀》第一集中,主持人Doug Burger與兩位頂尖AI研究員——微軟研究院的Nicolò Fusi和Numenta的Subutai Ahmad——圍繞一個核心問題展開了深度對話:當前的機器是否真正擁有智能?
Fusi專注於數字架構,尤其是基於Transformer的大語言模型(LLM)。他解釋了Transformer的兩大核心組件:注意力層和前饋層。注意力層負責建立輸入標記之間的關聯,例如找出句子中“狗”與“跳”的關係;前饋層則存儲知識,比如“杯子被碰倒會摔碎”這類常識。Transformer的並行計算能力使其成為“合適時間出現的合適架構”,突破了RNN的循環依賴瓶頸。
然而,Ahmad從神經科學角度提出了“千腦智能理論”。他指出,人腦新皮層由約10萬個皮質柱組成,每個皮質柱都是一個完整的感覺運動處理單元,獨立構建世界模型。這些皮質柱並行異步運行,不斷進行預測和更新。與Transformer單一的潛在空間不同,人腦擁有數千個協同工作的潛在空間。例如,當手指靠近桌面時,對應指尖的皮質柱會預測即將接觸到的觸感;若接觸到的物感異常冰冷或柔軟,預測失敗會觸發學習。
一個顯著的差異在於學習機制。人腦持續不斷地形成和修剪突觸連接:研究顯示,成年小鼠大腦中每四天約有30%的弱突觸被替換,而強突觸保持穩定。這種“投機性學習”讓大腦能夠快速適應新信息,同時保留重要的知識。Ahmad用地下室台階的比喻説明:當修復一階台階後,第一次下樓梯會因預測失誤而失衡,但經過幾次嘗試,大腦的分子層面便學會了新時序。相比之下,當前LLM的訓練通常採用“教師強制”方法,即每一步都提供即時反饋,這與人類稀疏的獎勵信號截然不同。Fusi批評道,這種密集反饋雖然加速訓練,但可能使模型更脆弱。
此外,效率問題也被提及。人腦的新皮層僅消耗約10瓦功率,卻能完成複雜任務。而LLM無論輸入難易,都消耗固定計算量。Ahmad指出,人腦會根據需要分配資源,例如指尖對應的皮質柱遠多於背部,這啓發了未來更高效的AI設計。
儘管存在差異,但兩者都是基於預測的系統。Burger注意到,在訓練Transformer時,預測錯誤越大,學習調整幅度越大,這與皮質柱對意外刺激的反應相似。Fusi則從信息論角度提出,生成模型本質上是壓縮器——尋找更好的生成模型等同於尋找更優的數據壓縮器。這一視角為理解AI的智能本質提供了信息論層面的洞見。
這場對話揭示,儘管當前AI取得了驚人進展,但與人腦的複雜性相比,仍有巨大差距。未來的AI系統可能需要融合更多生物啓發,例如動態資源分配、異步並行架構和稀疏反饋機制,才能真正邁向通用智能。