圖靈獎得主Richard Sutton:純生成式AI無法進行真正的科學發現
圖靈獎得主Richard Sutton指出,普通生成式AI缺乏評估自身輸出的能力,因此無法實現真正的科學發現。他認為,只有像AlphaGo那樣內建評估迴圈的系統才具備真正的創造力。Sutton呼籲開發能夠持續學習、自我評估和選擇最優解的AI。
圖靈獎得主Richard Sutton認為,普通的生成式AI缺乏科學發現所需的關鍵能力:它無法評估和進一步發展自己的成果。
大型語言模型、影像生成器和影片模型從海量示例中學習,並生成與之相似的輸出。根據Sutton的觀點,當這些輸出表現出色時,通常歸功於源材料——模型所學習的文本、影像或資料。而當輸出真正新穎時,它們超越了源材料。對於事實查詢,這被稱為“幻覺”。
Sutton用一個老研究員的玩笑來說明他的批評:“這項研究既新穎又優秀。不幸的是,優秀的部分不新穎,新穎的部分不優秀。”他認為,這一診斷適用於當今大部分生成式AI。它可以模仿有用的東西,或隨機產生新事物,但無法自行判斷哪些新想法真正優秀。
Sutton並不否認生成式AI在摘要、研究、助手或娛樂方面的實用性。新穎性往往甚至不是目標:摘要不應發明新事實,研究不應插入額外主張。他說:“生成式AI即使只是模仿,只要比被模仿的物件更快、更便宜、更小、更可定製或更易複製,就可能極其有用。”
模仿在科學中不夠用
在Sutton看來,這一界限對科學尤其重要,因為科學的重點不是複製已知知識,而是發現新事物、檢驗它們並將其轉化為持久的知識。
Sutton將真正的發現描述為三步過程:變異、評估和選擇性保留。系統必須生成不同的選項,測試它們,並持續使用有效的方法。他說,這一原則存在於進化、科學方法、規劃、搜尋和強化學習中。
純生成式AI最缺乏的是評估。語言和影像模型確實能生成不同的變體。但如果沒有測試,就無法選擇最佳方案,也無法實現發現。Sutton說:“新穎性一閃而過,但如果其價值未被識別,它就會消失並丟失。”
評估可以來自人類——例如使用者從多個AI生成影像中挑選最佳——也可以來自明確目標:將殺、形式有效的證明、程式成功執行、或模擬環境中的高獎勵。只有這種反饋才能將單純生成轉變為搜尋和發現過程。
AlphaGo、AlphaFold和Claude Code展示差異
Sutton表示,一些超越純生成式AI的系統已經“具備真正的創造力和真正的發現能力”。他列舉了AlphaGo及其著名的第37手、AlphaZero獨特的棋風、AlphaFold在蛋白質結構預測中的成就、AlphaProof在數學領域的應用、Claude Code在程式設計中的表現以及GT-Sophy在模擬賽車中的表現。
這些系統的共同點是擁有超越純文本或影像生成的評估迴圈。圍棋的一步要麼提高勝率,要麼不提高。數學步驟可以被形式驗證。程式碼透過測試、正確執行或失敗。這使得選擇和追求更好的解決方案成為可能。
Sutton說:“所有這些系統都具有一些額外特徵,使其能夠進行真正的創造和發現。”
Sutton的批評明確針對“普通”生成式AI:那些在執行時不對自身輸出進行評估的模型。結合搜尋、驗證器、工具、強化學習或形式驗證器的語言模型可以成為真正發現系統的一部分。但這種結構能擴充套件到程式設計、遊戲和明確可測試任務之外多遠,仍是一個開放問題。
Sutton還看到了神經網路訓練的另一個問題。標準網路從隨機設定開始,然後從資料中學習。這種初始隨機性是變異的來源,但主要發生在開始階段。隨著時間的推移,模型可能會失去學習能力,因為其內部結構變得僵化。
Sutton認為,真正學習的系統不應只訓練一次。它需要持續更新其結構:嘗試新可能性,保留有效部分,丟棄無效部分。他的目標是讓AI自主管理變異、評估和選擇性保留很長時間。他說:“讓我們完全自動化創造力和發現!”
Sutton此前就批評過AI行業的方向,認為它“迷失了方向”。他反對過分關注越來越大、在訓練中吸收大量知識但無法隨時間從自身經驗中學習的語言模型。相反,他呼籲AI代理能夠持續與環境互動、從中學習、構建內部世界模型並規劃新策略。元學習也是其願景的一部分:系統應該學習如何更好地學習,而不是僅僅模仿單個任務。
在他的Oak架構中,Sutton提出了實現強大AI系統的可能路徑。核心思想是代理在沒有內建專業知識的情況下開始,在環境中行動,獲得反饋,並隨時間形成越來越抽象的概念。有用的概念成為下一階段學習的基礎。
Sutton表示,實現這一目標的大前提是可靠的持續學習。當今的神經網路往往難以吸收新知識而不覆蓋舊知識或失去適應能力。