混合開放式三進化框架使深度研究者更強大
提出混合開放式三進化(HOTE)框架,利用混合模式強化學習促進提議者、求解者和評判者基於網路規模知識的協同進化,實現自主進化智慧體。實驗表明,8B模型在長格式深度研究基準上超越最強靜態8-32B模型及最先進深度研究方法,且時間開銷更低。
近年來,深度研究與智慧體進化被視為通往通用人工智慧(AGI)不可或缺的兩大支柱。深度研究使AI代理能夠在開放環境中自主檢索和整合資訊,以解決開放式研究問題,但其能力受限於代理系統固定的引數配置,無法動態適應新挑戰。智慧體進化則賦予代理透過與外界互動積累經驗、自主最佳化模型能力的能力,然而其有效性目前僅在具備標準答案的可驗證任務中獲得廣泛印證,在開放式研究任務中存在顯著短板。為了打通這兩項關鍵任務,來自研究機構的Hongming Piao等七位學者提出了混合開放式三進化(Hybrid Open-Ended Tri-Evolution,簡稱HOTE)框架。該框架的核心創新在於採用混合模式強化學習(Hybrid-mode Reinforcement Learning),將提議者(Proposer)、求解者(Solver)和評判者(Judge)三個智慧體模組基於網路規模知識進行協同進化。提議者負責構思研究方向與假設,求解者執行具體實驗與計算,評判者則評估結果質量並提供改進反饋。三者透過強化學習在開放環境中持續互動、動態最佳化,逐步實現自主進化能力。研究者在三個主流長格式深度研究基準(包括涵蓋多學科問題、資訊整合與推理的綜合性測試)上進行了廣泛實驗。令人矚目的是,僅含80億引數(8B)的模型經過HOTE訓練後,不僅在多項指標上超越了當前最強的靜態開源8B至32B模型,甚至擊敗了採用最前沿深度研究訓練方法(如Deep Research Fine-tuning)的同類模型,並且訓練時間開銷更低。消融實驗進一步揭示,HOTE框架中提議者、求解者、評判者三者缺一不可:任意移除一個模組都會導致效能大幅滑坡,充分證明了協同進化的必要性。這一研究成果為構建能夠自我迭代、不斷進化的AI研究代理提供了全新正規化,有望推動人工智慧在科學探索、開放式問答、自主知識發現等領域的實質性突破。該論文已於2026年6月10日提交至arXiv預印本平臺,編號2606.13710,相關程式碼與資料預計也將陸續開源。