ReactionAtlas:利用机器学习从头探索化学反应网络
ReactionAtlas是一种基于机器学习的方法,能够从少量种子分子出发,无需手工规则即可自动构建化学反应网络。该方法结合生成模型和机器学习力场,成功发现了约47,000个反应和12,000种化合物,精确度接近DFT级别,为化学起源研究提供了新工具。
化学反应网络是描述化学系统中所有极小值、过渡态及基元反应之间关系的图结构,在催化、燃烧和生命起源等领域具有核心地位。然而,传统方法如密度泛函理论(DFT)在构建此类网络时面临巨大挑战:需要寻找并表征数万个过渡态,计算成本极高,且通常需要预先指定反应物和产物。
近日,一项发表于arXiv的研究提出了ReactionAtlas框架,该框架利用机器学习技术,从少量“种子”分子出发,无需手工定义规则,即可从头构建化学反应网络。具体而言,ReactionAtlas采用一个机器学习生成模型,通过动力学采样候选化合物来提出可能反应,随后利用经DFT训练过的机器学习力场(MLFF)对过渡态进行筛选,仅保留有效的过渡态。生成的产物作为新的种子继续参与搜索,从而实现网络的自动扩展。
研究团队以八种前生物种子分子(CH₂O、H₂O、OH⁻、H₃O⁺、CO₂、H₂CO₃、HCO₃⁻、H)为起点,ReactionAtlas成功发现了约47,000个反应和12,000种化合物。验证结果显示,MLFF预测的过渡态结构与PBE0参考值高度一致:85%的案例中RMSD小于0.5Å,且可轻松提升至PBE0精度水平。这一成果以前所未有的规模和精度绘制了小型碳水化合物化学(最高至C₄H₈O₄)的反应网络,并包含了电荷和立体化学信息。
ReactionAtlas还揭示了多个已知反应路径的新见解,特别是甲醛循环(formose cycle),该循环在化学起源研究中具有核心地位。通过该框架,研究人员能够发现甲醛化学的替代反应途径,为理解生命起源的化学基础提供了全新视角。此外,该方法的自动化和泛化能力有望扩展到其他化学体系,推动从催化剂设计到药物发现等多个领域的发展。