2026-06-15站内改写2 分で読了更新: 2026-06-15

自動化AI研究への第一歩

Recursive社は、自動化AI研究システムの初期成果を発表し、固定予算言語モデル学習、小規模モデル学習速度、GPUカーネル最適化の3つのベンチマークで最先端の性能を達成しました。システムは研究ループ（アイデア提案、実装、実験、検証、反復）を自動化し、NanoChatでは0.9109 BPBを達成してコミュニティの成果を上回り、NanoGPT Speedrunでは学習時間を77.5秒に短縮、SOL-ExecBenchでは0.754のSOLスコアを達成しました。ハッシュテーブルnグラム埋め込みやバイトレベル特徴量などの革新を発見しました。

ソースHacker News AI著者: gmays

Recursive社は本日、自動化AI研究システムの初期成果を発表しました。このシステムは、固定予算言語モデル学習、小規模モデル学習速度、GPUカーネル最適化という3つの重要なベンチマークで最先端の性能を達成し、AI研究の自動化における重要な一歩となりました。

システムは研究ループ全体を自動化します。アイデアを提案し、実装し、実験を実行し、結果を検証し、得られた知識を基に次の実験を選択します。長期間にわたって複数の研究スレッドを実行し、以前の実験からの有用なコンテキストを保持し、有望なブランチを結合し、報酬ハッキングや分散を検証してから改善を真の進歩と見なします。設計はスケーラブルで、オープンエンドアルゴリズムの原理を活用し、チームの以前の再帰的自己改善AIの研究を基盤としています。

テストされた3つのベンチマークは、AI進歩の3つの中核的要素（より良い学習アルゴリズム、より高速な学習、より効率的なハードウェア利用）に焦点を当てています。これらは明確な指標、低い分散、報酬ハッキングに対する防御が可能な評価器を備えており、自動研究に適しています。

NanoChat Autoresearchベンチマークでは、タスクは単一GPUで固定5分間の予算内に小さな言語モデルを学習させ、最小検証損失（BPB）を達成することです。システムは初期シード解から出発し、H100 GPUで探索後、公平な比較のためにB200 GPUに移行しました。コミュニティの最良解0.9372 BPBに対し、システムは0.9109 BPBを達成し、0.0263の改善、つまり同じ損失に達するのに約1.3倍少ない学習時間で達成しました。システムはさらに弱い出発点（素朴なTransformer + AdamW）からでも0.9344 BPBに改善し、コミュニティ成果を上回りました。

システムが発見した改善点は単一のトリックではなく、アーキテクチャ、短コンテキスト記憶、補助損失、注意機構、オプティマイザ動作、重み減衰スケジュール、コンパイラ設定などの変更を組み合わせたものでした。最大の利益の一つは、より豊かな短コンテキスト記憶メカニズムからもたらされました。ベースラインが値埋め込みを使用するのに対し、システムはハッシュ化されたバイグラムおよびトライグラム埋め込みテーブルを導入し、学習可能なゲートを介して注意値経路に混合しました。これにより、モデルは遅い畳み込みや注意を用いずに局所nグラム情報を低コストで利用できるようになりました。

NanoGPT Speedrunベンチマークでは、タスクは単一HGX H100 8-GPUノードを使用して、小さなGPTモデルを固定検証損失3.28にできるだけ速く学習させることです。これは2年以上コミュニティによって最適化されてきた成熟したベンチマークです。システムは学習時間を79.7秒から77.5秒に短縮し、2.2秒の高速化を達成しました。

3つ目のベンチマークSOL-ExecBenchでは、GPUカーネルをハードウェア限界に近づけるように最適化します。システムは235カーネルでの平均SOLスコアを0.699から0.754に向上させ、最適性能推定値1.0とのギャップを18%削減しました。

Recursiveチームはこれらの成果物をオープンソースとして公開し、他の研究者がシステムの出力を検査し構築できるようにしました。これらの結果は、自動化AI研究システムが複数の重要な分野で実際の進歩を達成できる可能性を示しています。