混合开放式三进化框架使深度研究者更强大
提出混合开放式三进化(HOTE)框架,利用混合模式强化学习促进提议者、求解者和评判者基于网络规模知识的协同进化,实现自主进化智能体。实验表明,8B模型在长格式深度研究基准上超越最强静态8-32B模型及最先进深度研究方法,且时间开销更低。
近年来,深度研究与智能体进化被视为通往通用人工智能(AGI)不可或缺的两大支柱。深度研究使AI代理能够在开放环境中自主检索和整合信息,以解决开放式研究问题,但其能力受限于代理系统固定的参数配置,无法动态适应新挑战。智能体进化则赋予代理通过与外界交互积累经验、自主优化模型能力的能力,然而其有效性目前仅在具备标准答案的可验证任务中获得广泛印证,在开放式研究任务中存在显著短板。为了打通这两项关键任务,来自研究机构的Hongming Piao等七位学者提出了混合开放式三进化(Hybrid Open-Ended Tri-Evolution,简称HOTE)框架。该框架的核心创新在于采用混合模式强化学习(Hybrid-mode Reinforcement Learning),将提议者(Proposer)、求解者(Solver)和评判者(Judge)三个智能体模块基于网络规模知识进行协同进化。提议者负责构思研究方向与假设,求解者执行具体实验与计算,评判者则评估结果质量并提供改进反馈。三者通过强化学习在开放环境中持续交互、动态优化,逐步实现自主进化能力。研究者在三个主流长格式深度研究基准(包括涵盖多学科问题、信息整合与推理的综合性测试)上进行了广泛实验。令人瞩目的是,仅含80亿参数(8B)的模型经过HOTE训练后,不仅在多项指标上超越了当前最强的静态开源8B至32B模型,甚至击败了采用最前沿深度研究训练方法(如Deep Research Fine-tuning)的同类模型,并且训练时间开销更低。消融实验进一步揭示,HOTE框架中提议者、求解者、评判者三者缺一不可:任意移除一个模块都会导致性能大幅滑坡,充分证明了协同进化的必要性。这一研究成果为构建能够自我迭代、不断进化的AI研究代理提供了全新范式,有望推动人工智能在科学探索、开放式问答、自主知识发现等领域的实质性突破。该论文已于2026年6月10日提交至arXiv预印本平台,编号2606.13710,相关代码与数据预计也将陆续开源。