不要賭博,要GAMBLe:AI驅動研究系統的分析框架
本文介紹GAMBLe框架,用於分析AI驅動研究系統(ADRS)。該框架將ADRS行為分解為四個引數(生成器、評估器、發現機制、預算)和一個有效景觀。透過760多次實驗發現,不存在完全的排序,正確的元件選擇可大幅提升效能。
人工智慧驅動研究系統(ADRS)透過將大語言模型與自動評估相結合,用於發現演算法、證明和設計,正被廣泛最佳化和應用。然而,分析這些系統的工具卻未能同步發展。ADRS的效能依賴於元件之間複雜且昂貴的互動,而標準的收斂保證往往基於不成立的結構假設。為此,研究人員提出了GAMBLe框架。
GAMBLe將ADRS行為分解為四個關鍵引數:生成器(G)、評估器(A)、發現機制(M)和預算(B),並引入有效景觀(Leff = A∘G)這一概念。該景觀揭示了不同的生成器-評估器組合會為每個問題誘匯出結構不同的最佳化地形。研究團隊在760多次重複執行(超過46,000次迭代)中測試了該框架,涵蓋從單一LLM到動態自適應整合等多種生成器,從貪婪選擇到共進化元搜尋等多種機制,以及三個NP難問題,其評估器從連續評分到階梯函式不等。
實驗結果令人驚訝:不存在生成器或機制的絕對排序。前沿模型有時表現不如開源替代品,而最簡單的機制有時能超越最先進的元搜尋。即使在有限的預算下(每次執行60次迭代),正確的元件選擇也能將效能提升13%至67%,搜尋效率提高6至39倍。這一發現表明,ADRS的最佳化並非依靠直覺猜測,而需要系統的分析框架來指導。
GAMBLe框架為AI研究系統提供了一種強大的工具,幫助研究人員理解元件間的相互作用,並做出更明智的設計選擇。隨著ADRS在科學發現和工程設計中的日益普及,這種分析能力將成為避免盲目實驗、提升研究效率的關鍵。未來,該框架可以擴充套件至更多型別的生成器和評估器,並應用於實際研究問題中,以進一步驗證其有效性。