2026-06-03 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

不要賭博，要GAMBLe：AI驅動研究系統的分析框架

本文介紹GAMBLe框架，用於分析AI驅動研究系統（ADRS）。該框架將ADRS行為分解為四個引數（生成器、評估器、發現機制、預算）和一個有效景觀。透過760多次實驗發現，不存在完全的排序，正確的元件選擇可大幅提升效能。

來源arXiv AI作者: Marquita Ellis, Paul Castro

人工智慧驅動研究系統（ADRS）透過將大語言模型與自動評估相結合，用於發現演算法、證明和設計，正被廣泛最佳化和應用。然而，分析這些系統的工具卻未能同步發展。ADRS的效能依賴於元件之間複雜且昂貴的互動，而標準的收斂保證往往基於不成立的結構假設。為此，研究人員提出了GAMBLe框架。

GAMBLe將ADRS行為分解為四個關鍵引數：生成器（G）、評估器（A）、發現機制（M）和預算（B），並引入有效景觀（Leff = A∘G）這一概念。該景觀揭示了不同的生成器-評估器組合會為每個問題誘匯出結構不同的最佳化地形。研究團隊在760多次重複執行（超過46,000次迭代）中測試了該框架，涵蓋從單一LLM到動態自適應整合等多種生成器，從貪婪選擇到共進化元搜尋等多種機制，以及三個NP難問題，其評估器從連續評分到階梯函式不等。

實驗結果令人驚訝：不存在生成器或機制的絕對排序。前沿模型有時表現不如開源替代品，而最簡單的機制有時能超越最先進的元搜尋。即使在有限的預算下（每次執行60次迭代），正確的元件選擇也能將效能提升13%至67%，搜尋效率提高6至39倍。這一發現表明，ADRS的最佳化並非依靠直覺猜測，而需要系統的分析框架來指導。

GAMBLe框架為AI研究系統提供了一種強大的工具，幫助研究人員理解元件間的相互作用，並做出更明智的設計選擇。隨著ADRS在科學發現和工程設計中的日益普及，這種分析能力將成為避免盲目實驗、提升研究效率的關鍵。未來，該框架可以擴充套件至更多型別的生成器和評估器，並應用於實際研究問題中，以進一步驗證其有效性。