ReactionAtlas:利用機器學習從頭探索化學反應網絡
ReactionAtlas是一種基於機器學習的方法,能夠從少量種子分子出發,無需手工規則即可自動構建化學反應網絡。該方法結合生成模型和機器學習力場,成功發現了約47,000個反應和12,000種化合物,精確度接近DFT級別,為化學起源研究提供了新工具。
化學反應網絡是描述化學系統中所有極小值、過渡態及基元反應之間關係的圖結構,在催化、燃燒和生命起源等領域具有核心地位。然而,傳統方法如密度泛函理論(DFT)在構建此類網絡時面臨巨大挑戰:需要尋找並表徵數萬個過渡態,計算成本極高,且通常需要預先指定反應物和產物。
近日,一項發表於arXiv的研究提出了ReactionAtlas框架,該框架利用機器學習技術,從少量“種子”分子出發,無需手工定義規則,即可從頭構建化學反應網絡。具體而言,ReactionAtlas採用一個機器學習生成模型,通過動力學採樣候選化合物來提出可能反應,隨後利用經DFT訓練過的機器學習力場(MLFF)對過渡態進行篩選,僅保留有效的過渡態。生成的產物作為新的種子繼續參與搜索,從而實現網絡的自動擴展。
研究團隊以八種前生物種子分子(CH₂O、H₂O、OH⁻、H₃O⁺、CO₂、H₂CO₃、HCO₃⁻、H)為起點,ReactionAtlas成功發現了約47,000個反應和12,000種化合物。驗證結果顯示,MLFF預測的過渡態結構與PBE0參考值高度一致:85%的案例中RMSD小於0.5Å,且可輕鬆提升至PBE0精度水平。這一成果以前所未有的規模和精度繪製了小型碳水化合物化學(最高至C₄H₈O₄)的反應網絡,幷包含了電荷和立體化學信息。
ReactionAtlas還揭示了多個已知反應路徑的新見解,特別是甲醛循環(formose cycle),該循環在化學起源研究中具有核心地位。通過該框架,研究人員能夠發現甲醛化學的替代反應途徑,為理解生命起源的化學基礎提供了全新視角。此外,該方法的自動化和泛化能力有望擴展到其他化學體系,推動從催化劑設計到藥物發現等多個領域的發展。