2026-06-15站内改写1 分鐘閱讀更新: 2026-06-15

混合開放式三進化框架使深度研究者更強大

提出混合開放式三進化（HOTE）框架，利用混合模式強化學習促進提議者、求解者和評判者基於網路規模知識的協同進化，實現自主進化智慧體。實驗表明，8B模型在長格式深度研究基準上超越最強靜態8-32B模型及最先進深度研究方法，且時間開銷更低。

來源arXiv AI作者: Hongming Piao, Chi Liu, Mengzhuo Chen, Yan Shu, Derek Li, Ying Wei, Bryan Dai

近年來，深度研究與智慧體進化被視為通往通用人工智慧（AGI）不可或缺的兩大支柱。深度研究使AI代理能夠在開放環境中自主檢索和整合資訊，以解決開放式研究問題，但其能力受限於代理系統固定的引數配置，無法動態適應新挑戰。智慧體進化則賦予代理透過與外界互動積累經驗、自主最佳化模型能力的能力，然而其有效性目前僅在具備標準答案的可驗證任務中獲得廣泛印證，在開放式研究任務中存在顯著短板。為了打通這兩項關鍵任務，來自研究機構的Hongming Piao等七位學者提出了混合開放式三進化（Hybrid Open-Ended Tri-Evolution，簡稱HOTE）框架。該框架的核心創新在於採用混合模式強化學習（Hybrid-mode Reinforcement Learning），將提議者（Proposer）、求解者（Solver）和評判者（Judge）三個智慧體模組基於網路規模知識進行協同進化。提議者負責構思研究方向與假設，求解者執行具體實驗與計算，評判者則評估結果質量並提供改進反饋。三者透過強化學習在開放環境中持續互動、動態最佳化，逐步實現自主進化能力。研究者在三個主流長格式深度研究基準（包括涵蓋多學科問題、資訊整合與推理的綜合性測試）上進行了廣泛實驗。令人矚目的是，僅含80億引數（8B）的模型經過HOTE訓練後，不僅在多項指標上超越了當前最強的靜態開源8B至32B模型，甚至擊敗了採用最前沿深度研究訓練方法（如Deep Research Fine-tuning）的同類模型，並且訓練時間開銷更低。消融實驗進一步揭示，HOTE框架中提議者、求解者、評判者三者缺一不可：任意移除一個模組都會導致效能大幅滑坡，充分證明了協同進化的必要性。這一研究成果為構建能夠自我迭代、不斷進化的AI研究代理提供了全新正規化，有望推動人工智慧在科學探索、開放式問答、自主知識發現等領域的實質性突破。該論文已於2026年6月10日提交至arXiv預印本平臺，編號2606.13710，相關程式碼與資料預計也將陸續開源。