LLM-AutoSciLab:透過主動實驗實現閉環科學發現的LLM框架
本文提出LLM-AutoSciLab,一種閉環科學發現框架,將假設生成與假設條件實驗選擇及機制精煉相結合。該框架迭代提出合理假設、選擇資訊豐富的實驗以區分或精煉假設,並利用實驗結果更新狀態。引入ActiveSciBench基準,包含57項酶動力學任務和45項基因調控網路任務。在多個基準上,LLM-AutoSciLab優於先前方法,符號準確率在NewtonBench上達67.6%,在ActiveSciBench-Chem上達35.1%,在ActiveSciBench-GRN上精確圖恢復率達31.1%,且假設引導的實驗取樣效率比最強基線高2-5倍。
文章情報
要點
- LLM-AutoSciLab迭代地提出假設、選擇實驗並精煉機制,實現閉環科學發現。
- 引入ActiveSciBench資料集,包括酶動力學和基因調控網路任務,模擬預算約束下的發現過程。
- 在多個基準測試中,LLM-AutoSciLab取得最優結果,取樣效率提升2-5倍。
為什麼重要
這條新聞值得關注,因為LLM-AutoSciLab迭代地提出假設、選擇實驗並精煉機制,實現閉環科學發現。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
大型語言模型(LLM)在科學發現中的應用日益廣泛,但大多數方法將發現簡化為對固定資料集的監督學習,忽視了科學發現本質上的閉環特性:假設指導資料採集,而觀測結果又反過來精煉假設空間。為了突破這一侷限,來自多所機構的研究人員提出了LLM-AutoSciLab,一種新穎的閉環框架,它將假設生成與主動實驗選擇及機制精煉緊密結合,從而實現真正的自適應科學發現。
該框架的核心在於,它不再被動地擬合資料,而是主動地迭代提出多種可能的假設機制,然後設計並選擇資訊量最大的實驗來區分或精煉這些假設。每個實驗的結果都被用於更新系統的狀態,進而指導下一輪假設和實驗的選擇。這種主動學習的方式極大地提高了資料效率,避免了在無資訊實驗上的浪費。
為了嚴格評估這種動態、閉環的科學發現方法,研究團隊還引入了ActiveSciBench基準。該基準包含兩個子資料集:ActiveSciBench-Chem涵蓋57項酶動力學任務,ActiveSciBench-GRN涵蓋45項基因調控網路任務。這些任務模擬了在預算約束下進行發現的過程,要求自適應實驗設計、變數選擇和真實機制還原。
實驗結果表明,LLM-AutoSciLab在多個基準上均取得了顯著領先的效能。在NewtonBench上,其符號準確率達到67.6%;在ActiveSciBench-Chem上達到35.1%;在ActiveSciBench-GRN上,精確圖恢復率達到31.1%。更重要的是,假設引導的實驗設計使得采樣效率比最強的競爭基線高出2至5倍,這意味著在相同實驗預算下,LLM-AutoSciLab能夠更快地發現正確的科學機制。
研究團隊已在GitHub上開源了相關程式碼和資料,以促進該領域的進一步研究。LLM-AutoSciLab的成功展示了將LLM與主動學習相結合在加速科學發現方面的巨大潛力,有望為從生物學到化學等多個學科的實驗設計帶來變革。