2026-05-26 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

LLM-AutoSciLab：透過主動實驗實現閉環科學發現的LLM框架

本文提出LLM-AutoSciLab，一種閉環科學發現框架，將假設生成與假設條件實驗選擇及機制精煉相結合。該框架迭代提出合理假設、選擇資訊豐富的實驗以區分或精煉假設，並利用實驗結果更新狀態。引入ActiveSciBench基準，包含57項酶動力學任務和45項基因調控網路任務。在多個基準上，LLM-AutoSciLab優於先前方法，符號準確率在NewtonBench上達67.6%，在ActiveSciBench-Chem上達35.1%，在ActiveSciBench-GRN上精確圖恢復率達31.1%，且假設引導的實驗取樣效率比最強基線高2-5倍。

來源arXiv Machine Learning作者: Sanchit Kabra, Nikhil Abhyankar, Saaketh Desai, Prasad Iyer, Chandan K Reddy

大型語言模型（LLM）在科學發現中的應用日益廣泛，但大多數方法將發現簡化為對固定資料集的監督學習，忽視了科學發現本質上的閉環特性：假設指導資料採集，而觀測結果又反過來精煉假設空間。為了突破這一侷限，來自多所機構的研究人員提出了LLM-AutoSciLab，一種新穎的閉環框架，它將假設生成與主動實驗選擇及機制精煉緊密結合，從而實現真正的自適應科學發現。

該框架的核心在於，它不再被動地擬合資料，而是主動地迭代提出多種可能的假設機制，然後設計並選擇資訊量最大的實驗來區分或精煉這些假設。每個實驗的結果都被用於更新系統的狀態，進而指導下一輪假設和實驗的選擇。這種主動學習的方式極大地提高了資料效率，避免了在無資訊實驗上的浪費。

為了嚴格評估這種動態、閉環的科學發現方法，研究團隊還引入了ActiveSciBench基準。該基準包含兩個子資料集：ActiveSciBench-Chem涵蓋57項酶動力學任務，ActiveSciBench-GRN涵蓋45項基因調控網路任務。這些任務模擬了在預算約束下進行發現的過程，要求自適應實驗設計、變數選擇和真實機制還原。

實驗結果表明，LLM-AutoSciLab在多個基準上均取得了顯著領先的效能。在NewtonBench上，其符號準確率達到67.6%；在ActiveSciBench-Chem上達到35.1%；在ActiveSciBench-GRN上，精確圖恢復率達到31.1%。更重要的是，假設引導的實驗設計使得采樣效率比最強的競爭基線高出2至5倍，這意味著在相同實驗預算下，LLM-AutoSciLab能夠更快地發現正確的科學機制。

研究團隊已在GitHub上開源了相關程式碼和資料，以促進該領域的進一步研究。LLM-AutoSciLab的成功展示了將LLM與主動學習相結合在加速科學發現方面的巨大潛力，有望為從生物學到化學等多個學科的實驗設計帶來變革。