2026-06-15站内改写1 分钟阅读更新: 2026-06-15

混合开放式三进化框架使深度研究者更强大

提出混合开放式三进化（HOTE）框架，利用混合模式强化学习促进提议者、求解者和评判者基于网络规模知识的协同进化，实现自主进化智能体。实验表明，8B模型在长格式深度研究基准上超越最强静态8-32B模型及最先进深度研究方法，且时间开销更低。

来源arXiv AI作者: Hongming Piao, Chi Liu, Mengzhuo Chen, Yan Shu, Derek Li, Ying Wei, Bryan Dai

近年来，深度研究与智能体进化被视为通往通用人工智能（AGI）不可或缺的两大支柱。深度研究使AI代理能够在开放环境中自主检索和整合信息，以解决开放式研究问题，但其能力受限于代理系统固定的参数配置，无法动态适应新挑战。智能体进化则赋予代理通过与外界交互积累经验、自主优化模型能力的能力，然而其有效性目前仅在具备标准答案的可验证任务中获得广泛印证，在开放式研究任务中存在显著短板。为了打通这两项关键任务，来自研究机构的Hongming Piao等七位学者提出了混合开放式三进化（Hybrid Open-Ended Tri-Evolution，简称HOTE）框架。该框架的核心创新在于采用混合模式强化学习（Hybrid-mode Reinforcement Learning），将提议者（Proposer）、求解者（Solver）和评判者（Judge）三个智能体模块基于网络规模知识进行协同进化。提议者负责构思研究方向与假设，求解者执行具体实验与计算，评判者则评估结果质量并提供改进反馈。三者通过强化学习在开放环境中持续交互、动态优化，逐步实现自主进化能力。研究者在三个主流长格式深度研究基准（包括涵盖多学科问题、信息整合与推理的综合性测试）上进行了广泛实验。令人瞩目的是，仅含80亿参数（8B）的模型经过HOTE训练后，不仅在多项指标上超越了当前最强的静态开源8B至32B模型，甚至击败了采用最前沿深度研究训练方法（如Deep Research Fine-tuning）的同类模型，并且训练时间开销更低。消融实验进一步揭示，HOTE框架中提议者、求解者、评判者三者缺一不可：任意移除一个模块都会导致性能大幅滑坡，充分证明了协同进化的必要性。这一研究成果为构建能够自我迭代、不断进化的AI研究代理提供了全新范式，有望推动人工智能在科学探索、开放式问答、自主知识发现等领域的实质性突破。该论文已于2026年6月10日提交至arXiv预印本平台，编号2606.13710，相关代码与数据预计也将陆续开源。