2026-06-03 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

不要賭博，要GAMBLe：AI驅動研究系統的分析框架

本文介紹GAMBLe框架，用於分析AI驅動研究系統（ADRS）。該框架將ADRS行為分解為四個參數（生成器、評估器、發現機制、預算）和一個有效景觀。通過760多次實驗發現，不存在完全的排序，正確的組件選擇可大幅提升性能。

來源arXiv AI作者: Marquita Ellis, Paul Castro

人工智能驅動研究系統（ADRS）通過將大語言模型與自動評估相結合，用於發現算法、證明和設計，正被廣泛優化和應用。然而，分析這些系統的工具卻未能同步發展。ADRS的性能依賴於組件之間複雜且昂貴的交互，而標準的收斂保證往往基於不成立的結構假設。為此，研究人員提出了GAMBLe框架。

GAMBLe將ADRS行為分解為四個關鍵參數：生成器（G）、評估器（A）、發現機制（M）和預算（B），並引入有效景觀（Leff = A∘G）這一概念。該景觀揭示了不同的生成器-評估器組合會為每個問題誘導出結構不同的優化地形。研究團隊在760多次重複運行（超過46,000次迭代）中測試了該框架，涵蓋從單一LLM到動態自適應集成等多種生成器，從貪婪選擇到共進化元搜索等多種機制，以及三個NP難問題，其評估器從連續評分到階梯函數不等。

實驗結果令人驚訝：不存在生成器或機制的絕對排序。前沿模型有時表現不如開源替代品，而最簡單的機制有時能超越最先進的元搜索。即使在有限的預算下（每次運行60次迭代），正確的組件選擇也能將性能提升13%至67%，搜索效率提高6至39倍。這一發現表明，ADRS的優化並非依靠直覺猜測，而需要系統的分析框架來指導。

GAMBLe框架為AI研究系統提供了一種強大的工具，幫助研究人員理解組件間的相互作用，並做出更明智的設計選擇。隨着ADRS在科學發現和工程設計中的日益普及，這種分析能力將成為避免盲目實驗、提升研究效率的關鍵。未來，該框架可以擴展至更多類型的生成器和評估器，並應用於實際研究問題中，以進一步驗證其有效性。