2026-05-26 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

LLM-AutoSciLab：通过主动实验实现闭环科学发现的LLM框架

本文提出LLM-AutoSciLab，一种闭环科学发现框架，将假设生成与假设条件实验选择及机制精炼相结合。该框架迭代提出合理假设、选择信息丰富的实验以区分或精炼假设，并利用实验结果更新状态。引入ActiveSciBench基准，包含57项酶动力学任务和45项基因调控网络任务。在多个基准上，LLM-AutoSciLab优于先前方法，符号准确率在NewtonBench上达67.6%，在ActiveSciBench-Chem上达35.1%，在ActiveSciBench-GRN上精确图恢复率达31.1%，且假设引导的实验采样效率比最强基线高2-5倍。

来源arXiv Machine Learning作者: Sanchit Kabra, Nikhil Abhyankar, Saaketh Desai, Prasad Iyer, Chandan K Reddy

大型语言模型（LLM）在科学发现中的应用日益广泛，但大多数方法将发现简化为对固定数据集的监督学习，忽视了科学发现本质上的闭环特性：假设指导数据采集，而观测结果又反过来精炼假设空间。为了突破这一局限，来自多所机构的研究人员提出了LLM-AutoSciLab，一种新颖的闭环框架，它将假设生成与主动实验选择及机制精炼紧密结合，从而实现真正的自适应科学发现。

该框架的核心在于，它不再被动地拟合数据，而是主动地迭代提出多种可能的假设机制，然后设计并选择信息量最大的实验来区分或精炼这些假设。每个实验的结果都被用于更新系统的状态，进而指导下一轮假设和实验的选择。这种主动学习的方式极大地提高了数据效率，避免了在无信息实验上的浪费。

为了严格评估这种动态、闭环的科学发现方法，研究团队还引入了ActiveSciBench基准。该基准包含两个子数据集：ActiveSciBench-Chem涵盖57项酶动力学任务，ActiveSciBench-GRN涵盖45项基因调控网络任务。这些任务模拟了在预算约束下进行发现的过程，要求自适应实验设计、变量选择和真实机制还原。

实验结果表明，LLM-AutoSciLab在多个基准上均取得了显著领先的性能。在NewtonBench上，其符号准确率达到67.6%；在ActiveSciBench-Chem上达到35.1%；在ActiveSciBench-GRN上，精确图恢复率达到31.1%。更重要的是，假设引导的实验设计使得采样效率比最强的竞争基线高出2至5倍，这意味着在相同实验预算下，LLM-AutoSciLab能够更快地发现正确的科学机制。

研究团队已在GitHub上开源了相关代码和数据，以促进该领域的进一步研究。LLM-AutoSciLab的成功展示了将LLM与主动学习相结合在加速科学发现方面的巨大潜力，有望为从生物学到化学等多个学科的实验设计带来变革。