AI News HubLIVE
站内改写

研究者がClaude Codeに、人間ならおそらく設計しなかったであろうAIスケーリングアルゴリズムを発見させる

メリーランド大学、Google、Metaなどの研究チームは、AutoTTSを用いてコーディングエージェントがAI推論の制御アルゴリズムを自律的に発見できるようにした。発見されたアルゴリズムは、標準的な自己一致性と比較して精度を維持しながら計算量を約70%削減する。探索全体のコストは40ドル、所要時間は160分だった。

記事インテリジェンス

エンジニア上級

要点

  • AutoTTSはオフラインシミュレーション環境を利用し、人間がルールを書くことなくコーディングエージェントがテスト時スケーリングアルゴリズムを自律探索する。
  • 発見されたアルゴリズムは数学ベンチマークで、自己一致性などの既存手法よりも計算効率の良い精度を達成。
  • モデルの信頼度変化を追跡し、単純な多数決ではなく動的に推論経路を調整する。
  • 研究はAIアルゴリズム設計を手作業のルール作成から、エージェントが探索する空間の構築へとシフトさせる。

重要な理由

このニュースが重要なのは、AutoTTSはオフラインシミュレーション環境を利用し、人間がルールを書くことなくコーディングエージェントがテスト時スケーリングアルゴリズムを自律探索するためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

研究者たちは、より効率的なAI推論のためのルールを自ら書く代わりに、コーディングエージェントにシミュレーション環境内で優れた制御アルゴリズムを探索させた。その結果、既存手法を凌駕し、計算量も大幅に削減された。

テスト時スケーリング(TTS)は、大規模言語モデルが応答生成により多くの計算リソースを使えるようにすることで性能を向上させる手法である(例えば、複数の解経路を並列実行したり、思考連鎖を延長する)。これまでは、モデルがいつ新しい解経路を開始し、有望なものを強化し、あるいは打ち切るかは、ほぼ常に人間が書いたルールで決められていた。

メリーランド大学、バージニア大学、ワシントン大学セントルイス校、ノースカロライナ大学チャペルヒル校、Google、Metaからなる研究チームは、AutoTTSでこのパラダイムを覆した。人間はアルゴリズムを直接書くのではなく、AIエージェントが自律的にアルゴリズムを見つけ出すための「遊び場」を構築する。

論文は、既知の多くの手法が、幅(同時に実行する解経路の数)と深さ(各経路の進み具合)で定義される共通の制御空間の特殊ケースに過ぎないと主張する。ではなぜ研究者は手作業でこの空間を探索し続けるのか、と著者らは問いかける。

**シミュレーション探索でコスト削減**

AutoTTSの中核はオフライン環境である。各タスクについて、チームは言語モデルからあらかじめ複数の解経路を生成し保存する。新しい制御アルゴリズムは、既存のデータに基づいて計算リソースの使い方を決定する。これにより、実際の言語モデルを毎回起動することなく、数千ものバリエーションを実行できる。

Claude Codeが探索を担当する。複数ラウンドにわたり、エージェントは以前の試みをレビューし、弱点を特定し、新しい制御アルゴリズムを直接コードとして書き出す。探索が無数の小さなパラメータで迷子になるのを防ぐため、各提案は外部に1つの高レベルコントローラーのみを公開し、そのコントローラーが他のすべての閾値を自ら設定する。また、完全なログにより、エージェントは以前の試行がどこで無駄に計算を消費したかを把握できる。

**エージェント作成アルゴリズムが人間設計を凌駕**

AIMEやHMMTなどの数学ベンチマークでは、エージェントが考案したアルゴリズムは、単位計算あたりの精度において既存手法を上回る。低リソース設定では、標準的な自己一致性(64の回答を並列生成し多数決で選択)と比較してトークン使用量が約70%削減され、精度は維持される。

このアルゴリズムは異なるモデル(DeepSeek-R1-Distill-Llama-8B)や非数学ベンチマーク(GPQA-Diamond)にも転用可能である。発見ラン全体のコストは約40ドル、所要時間は160分だった。

**人間なら思いつかないロジック**

生の数字よりも興味深いのは、発見されたプログラムが実際にどのように機能するかである。それは、モデルの信頼度が複数ラウンドにわたってどのように変化するかを追跡する。他の手法は、回答の多数派が決まった時点で即座に打ち切る。

信頼度がほとんど変わらなければ、アルゴリズムはより多くの解経路を開く。急上昇すれば、新しい経路をスキップする。途中結果が現在の多数派と一致する解経路には追加の計算リソースが割り当てられる。アルゴリズムは、複数ラウンドにわたって間違った方向に進み続ける経路だけを破棄する。

著者らは、この種の調整は手作業で設計するのはほぼ不可能だっただろうと述べている。アブレーション研究は、2つの設計上の選択が重要であることを示している:高レベルコントローラーを1つだけに制限しないと、エージェントは極端なショートカットに陥り、テストでは計算を大幅に節約するが、新しいタスクでは精度が低下する。詳細なログがないと、発見されたアルゴリズムはより多くの計算を消費し精度も悪化するため、最終結果だけでは何が悪かったかを把握できない。

**アルゴリズム記述から探索空間構築へ**

著者らはAutoTTSを、FunSearch、AlphaEvolve、ADASなど、言語モデルをプログラム探索器として利用する研究の流れに位置づける。新規性は、このアイデアをテスト時スケーリングに適用した点にあり、これまでは主に手作業で行われていた。

現在のバージョンは幅と深さのトレードオフのみを扱い、木探索のようなより複雑な構造は扱えない。発見の質はコーディングエージェントにも依存するが、著者らはオープンソースの代替手段でも同様に機能するかどうかは述べていない。

より大きな教訓は、この研究が人間の役割をルールの発明から探索環境のセットアップへとシフトさせたことである。実際の戦略は、言語モデルが書き、洗練するコードとして現れる。

2024年には早くも、Hugging Faceの研究者たちは、小型言語モデルがスマートなテスト時計算スケーリングによってはるかに大規模なモデルに匹敵することを示していたが、探索戦略は手作業で設計されていた。Metaとパートナーは最近、自己改善プロセスを最適化するAIシステムであるハイパーエージェントを導入している。