構建AI神經科學:從原子到比特
本文探討了利用AI科學家智能體加速神經科學研究的願景。作者指出,通過創建大腦圖譜、數字孿生體以及結合真實實驗驗證,可以大幅提升研究效率。文章還提出了資助者應優先支持的項目類型,包括高質量數據集、新型神經技術、數字孿生模型和基準測試。
神經科學,通常由大學的小型實驗室推動,進展緩慢;博士後和研究生們常常需要十年時間才能完成一個項目。這些研究可能為治療神經退行性疾病或理解人類智能提供種子。我們如何加速神經科學?
如果我們能使用AI科學家智能體——能夠閲讀文獻、生成假設、讀取數據、編寫分析代碼並設計實驗的系統——來研究大腦和行為,無論是直接研究還是通過彙編成圖譜和數字孿生體,就有可能極大地加速神經科學。在《Machines of Loving Grace》一書中,Dario Amodei描述了高級AI如何像數據中心裏的一羣天才一樣,在構建智能科學和治癒所有神經精神疾病方面取得快速進展。儘管這些目標崇高,但該文章並未説明如何實現。在此,我描繪瞭如何構建AI神經科學以及資助者應優先考慮的事項。
AI科學家智能體是AI科學家的一種特殊實例,目前已經初具雛形。2026年5月的《自然》雜誌介紹了三種這樣的系統,展示了它們在編寫實證軟件和測試生物醫學假設方面的應用。這些系統本質上是具有代理功能的大語言模型,管理上下文、記憶和技能訪問。它們的架構類似於編碼代理,如Claude Code或OpenAI Codex,但最終產品不是軟件或網站,而是從分析中得出的見解。
目前,AI科學家的自主性有限,但我們預計隨着大語言模型能力的增長,它們將變得更加能幹,類似於我們在編碼代理中看到的那樣。然而,一個根本性的瓶頸仍然存在:構建高度專業化的神經科學技能。我們預計,這將需要超出單個實驗室範圍的數據和軟件工程,以匹配基礎模型的吞吐量。
雖然AI科學家在科學學科中相對通用,但它們研究的對象不同。傳統和AI神經科學家的研究對象都是大腦和行為。與代碼和數學等可驗證領域不同,AI代理可以快速廉價地測試假設,而對大腦和行為進行實驗的成本很高。為了取得進展,我們必須儘可能多地將大腦和行為的研究從原子世界轉移到比特世界:收集圖譜、構建數字孿生體,並通過假設驅動的實驗在真實受試者上閉環。
靜態數據集要用於AI神經科學家,必須達到圖譜的水平:高覆蓋率、高信息量的腦圖,能夠回答比原始實驗設計者預期多得多的疑問。自然場景數據集、艾倫腦細胞圖譜和FlyWire分別是fMRI、轉錄組學連接組學領域的近期例子。這些數據集以完整性為目標收集,包含各自領域的代表性樣本(或在FlyWire的情況下,完整領域)。它們按照FAIR原則分發:高度註釋,在開放平台上分發,提供示例代碼和程序化訪問。
靜態數據集本身不允許我們運行假設實驗。為此,我們必須將數據編譯成數字孿生體,使我們能夠預測不同輸入和條件將如何影響系統。在神經科學中,數字孿生體通常是直接訓練以模仿神經數據的神經網絡,或由數據錨定的生物物理模擬。這裏的關鍵指標是預測有效性:孿生體對感興趣值的預測與真實生物體中間現象的相關性,最好是在分佈外測量。
儘管廉價的實驗代理使我們能夠篩選無數干預措施,但它們的好壞取決於預測有效性。在藥物發現中,Scannell等人(2022)認為,提高0.1的預測有效性(Spearman ρ,0到1之間的值)勝過掃描幾個數量級的化合物。我們應該追求具有高預測有效性的模型,這可以通過擬合大量高熵數據(包括因果操縱)來實現。
用不知疲倦的AI神經科學家取代傳統神經科學家不會加快傳統實驗的速度。實際上,瓶頸將從數據分析轉移到數據收集。為了看到真實受試者實驗的加速,我們預見兩條路徑:AI神經科學家提出更好、更具區分性的實驗來運行;或者AI神經科學家通過實驗室自動化更快地運行實驗。在未來幾年內,運行假設驅動的真實受試者實驗仍將是瓶頸。我們應該將這些寶貴資源集中在驗證AI神經科學家基於圖譜和數字孿生做出的預測上,從而在良性循環中創建更好的模型。
考慮到未來幾年AI神經科學如何進展的模式,資助者應關注價值鏈中的高槓杆點:數據達到圖譜水平、更好的神經技術用於構建圖譜、更好的數字孿生體、更好的基準測試。規劃後AGI未來意味着要考慮廣泛的結果,因為鋸齒形前沿的不同部分將以不可預測的順序出現。最重要的是,最好的項目都有一個明確的願景:他們的研究為何能解鎖其他人的約束。