2026-06-09站内改写2 分钟阅读更新: 2026-06-09

AI科学家何时该停止？可验证实验引导与自主发现中的拒绝机制

本文提出CARTOGRAPH框架，为AI科学家提供可验证的实验引导与拒绝能力。该框架通过未解析子空间实验引导、显式模糊闭合和基于残差的库不足检测，在多个测试中优于原始投影方法。在回顾性审计中，成功标记了A-Lab系统中所有后续被认定为不确定的主张。

来源arXiv Machine Learning作者: Neel Tushar Shah, Manglam Kartik

在人工智能驱动的科学发现中，一个关键问题始终存在：AI科学家何时应该停止实验并接受一个假设？过度自信可能导致错误结论，而过于保守则可能错失重要发现。为了解决这一困境，研究人员提出了CARTOGRAPH框架，旨在为自主发现系统提供可验证的实验引导和拒绝能力。

CARTOGRAPH的核心是一个验证层，它将三个关键步骤结合在一起：未解析子空间实验引导（选择）、显式模糊闭合（解析）和基于残差的库不足检测（拒绝）。在局部线性高斯桥假设下，原始未解析投影被视为各向同性未解析Fisher信息迹，而CARTOGRAPH-A则提供了精确的未解析A最优规则。值得注意的是，封闭形式的EIG和Box-Hill指标作为局部比较器出现，而非全局等价物。

为了评估CARTOGRAPH的性能，研究人员在五个不同的测试床上进行了实验。结果显示，在维度d=8的重复结构化级联测试中，CARTOGRAPH-A以129胜0平15负的压倒性优势击败了原始投影方法（p<10^-21）。这一结果证实了框架在复杂搜索空间中的有效性。

更具区分性的是，CARTOGRAPH展示了一种独特的自纠错能力。在实验中，框架初步识别了三个库外的药代动力学机制，但随着残差暴露结构失配，它主动撤销了这些识别。与此同时，一个受扰动的库内对照始终被正确识别。这种动态调整能力对于避免虚假发现至关重要。

在低维药代动力学和过滤后的EPA设置中，理论预测的接近平局与观察结果一致，进一步验证了框架的鲁棒性。

最令人印象深刻的是，CARTOGRAPH在回顾性审计中展现了实际价值。研究人员对已发表的A-Lab自主材料系统中40个肯定主张进行了审计，其中拒绝机制成功标记了所有4个后续被认定为不确定的主张，同时通过了36个确认主张中的32个。这表明CARTOGRAPH不仅能识别潜在错误，还能避免过度拒绝正确的发现。

CARTOGRAPH的代码已在GitHub上公开，为AI科学社区提供了一个强大的工具。随着自主发现系统在科学领域的应用日益广泛，确保其可靠性和可验证性将变得至关重要。CARTOGRAPH通过提供明确的停止规则和拒绝机制，向这一目标迈出了重要一步。