AI News HubLIVE
站内改写2 分で読了

ハイブリッド開放型トリ・エボリューションがより優れたディープリサーチャーを実現

ハイブリッド開放型トリ・エボリューション(HOTE)フレームワークは、ハイブリッドモード強化学習を用いて提案者、解決者、評価者の協調進化を促進し、ウェブ規模の知識に基づいて開放型タスクにおける自律進化エージェントを実現する。8Bモデルは静的8-32Bモデルや最先端の深層研究訓練手法を上回る性能を示した。

ソースarXiv AI著者: Hongming Piao, Chi Liu, Mengzhuo Chen, Yan Shu, Derek Li, Ying Wei, Bryan Dai

近年、深層研究(Deep Research)とエージェント進化(Agent Evolution)は、汎用人工知能(AGI)を実現するための重要なタスクと見なされています。前者は、オープンエンドな環境で自律的に情報を取得・統合し、研究課題に取り組むことを可能にしますが、エージェントシステムの静的なパラメータに制約されます。後者は、環境との相互作用を通じて経験を積み、モデル能力を進化させることができますが、その有効性は主に標準的な答えがある検証可能なタスクでのみ確認されており、オープンエンドな研究タスクとの間には隔たりがあります。この2つの重要なタスクを橋渡しするために、Hongming Piao氏ら7名の研究者は、ハイブリッド開放型トリ・エボリューション(HOTE)フレームワークを提案しました。HOTEは、ハイブリッドモード強化学習を活用し、ウェブ規模の知識に基づいて、提案者(Proposer)、解決者(Solver)、評価者(Judge)の3つのモジュールを協調的に進化させます。提案者は研究の仮説や方向性を生成し、解決者は具体的な研究手順を実行し、評価者は結果を評価してフィードバックを提供します。これら3つのモジュールは強化学習を通じて動的に進化し、自律的な進化を実現します。実験は3つの長文形式の深層研究ベンチマークで行われ、わずか80億パラメータ(8B)のモデルがHOTEで訓練された結果、最も強力な静的オープン8-32Bモデルや最先端の深層研究訓練手法で訓練されたモデルを凌駕し、かつ時間オーバーヘッドが低いことが示されました。さらに、すべての3モジュールの進化が不可欠であり、いずれかが欠けると性能が大幅に低下することが確認されました。この研究は、真に自律進化するAI研究エージェントの開発に新たな道を開くものであり、オープンエンドな研究タスクへの応用が期待されます。本論文は2026年6月10日にarXivに提出され、識別番号は2606.13710です。