Hexo Labs、自己改善エージェント「SIA」をオープンソース化:ハーネスとモデル重みの両方を更新
Hexo Labsは、MITライセンスの下で自己改善ループ「SIA(Self-Improving AI)」を公開しました。フィードバックエージェントが各実行の軌跡を読み取り、scaffoldを書き換えるか、gpt-oss-120b上でLoRA重み更新をトリガーします。両方のレバーを組み合わせることで、LawBench、TriMul GPUカーネル、scRNA-seqデノイジングにおいて、scaffoldのみの反復を上回る結果を示しました。
記事インテリジェンス
要点
- SIAは、エージェントのscaffoldとモデル重みの両方を編集する初の自己改善ループです。
- LawBenchタスクでは、重み更新を追加することで、ハーネスのみの50.0%から70.1%へ精度が向上しました。
- フィードバックエージェントは観測された報酬に基づいて、PPO、エントロピー利得加重、GRPOなどの訓練アルゴリズムを選択します。
- MITライセンスで公開(hexo-ai/sia)、gpt-oss-120bとLoRAランク32に基づいています。
重要な理由
このニュースが重要なのは、SIAは、エージェントのscaffoldとモデル重みの両方を編集する初の自己改善ループですためです。
技術的影響
モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。
ほとんどのAIエージェントは、人間がチューニングを止めると改善を停止します。モデルは固定され、その周囲のscaffoldも固定されています。Hexo Labsは、その両方を同時に動かそうとしています。今週、同社はSIA(Self-Improving AI)をMITライセンスの下でオープンソースフレームワークとして公開しました。その中核的な主張は狭く具体的です。SIAは、一つの自己改善ループ内でエージェントのscaffoldとモデル重みの両方を編集します。
SIAはタスク固有のエージェントを2つの部分に分割します。1つ目はハーネス(scaffoldとも呼ばれる)で、システムプロンプト、ツールディスパッチロジック、リトライポリシー、回答抽出コードをカバーします。2つ目はモデル重み自体です。3つのLLMコンポーネントがループを駆動します。メタエージェントはタスク仕様と参照コードから初期scaffoldを記述します。タスク固有エージェントはタスクを実行し、すべてのステップを記録します。フィードバックエージェントはその完全な軌跡を読み取り、何を変更するかを決定します。
この決定が鍵です。各実行後、フィードバックエージェントは2つのアクションのいずれかを選択します。重みを固定したままscaffoldを書き換えるか、scaffoldを固定したまま重み更新をトリガーします。ベースモデルはopenai/gpt-oss-120bで、重み更新にはランク32のLoRAを使用します。メタエージェントとフィードバックエージェントはどちらもClaude Sonnet 4.6上で動作し、トレーニングはModalプラットフォームを通じてH100 GPU上で実行されます。研究チームは2つの動作点を定義しています:SIA-H(ハーネスのみ更新)とSIA-W+H(ハーネス+重み更新)。
テストは3つの異なるドメインで行われました。LawBench(191クラスの中国刑事罪名分類)、AlphaEvolve TriMul(AlphaFold2のカスタムCUDAカーネル)、scRNA-seqデノイジング(単一細胞RNA補完手法MAGICのチューニング)です。結果は一貫して、重み更新がscaffold編集だけでは達成できない追加の利益をもたらしました。LawBenchでは、scaffold反復がTF-IDF+LinearSVCパイプラインを構築し、50.0%で頭打ちになりましたが、PPOによる重み更新で精度が70.1%に跳ね上がり、20.1ポイントの改善となりました。TriMulでは、scaffold編集がベースラインから1.14倍の高速化を達成し、重み更新により実行時間が12,483マイクロ秒から1,017マイクロ秒に短縮され、ハーネスのみのピークから91.9%削減されました。ただし、同じチャートでコーディングエージェントClaude CodeがTriMulで1.50倍を達成し、SIA-Hの1.14倍を上回っている点は正直な注意点ですが、SIA-W+Hは全体で14.02倍とリードしました。デノイジングでは、ハーネスの超パラメータ探索が0.241 mse_normで落ち着きましたが、最初の重み更新チェックポイントで、scaffoldが決して生成しなかった2行のステップ(補完カウントを非負整数に丸める)が追加され、スコアが0.289に向上しました。
フィードバックエージェントは、観測された報酬信号に基づいて訓練アルゴリズムを選択します。LawBenchでは報酬がクリーンな結果ベースのスカラーだったため、GAE付きPPOを使用しました。TriMulではほとんどのカーネルがコンパイルに失敗したため、エントロピー利得加重を使用しました。この手法は稀な高報酬ロールアウトを重視します。デノイジングでは、価値ネットワークを完全に排除するGRPOを使用しました。REINFORCE with KL-to-base、DPO、best-of-N行動クローニングも利用可能で、各々異なる報酬形状と失敗リスクに対応します。
SIAの強みは、著者らの比較表によれば、単一ループでscaffoldと重みの両方を編集する初のシステムであること、3つの無関係なドメインで一貫して従来の最先端を上回ったこと、MITライセンスでオープンソースであり、4つのバンドルタスクが付属していること、アルゴリズム選択が固定スケジュールではなく観測された報酬に基づいていることです。注意すべき点として、報告されているのは3タスクのみで、より広範なアルゴリズム選択結果は保留されています。両方のレバーが同じ固定検証器を最適化するため、結合されたグッドハート効果のリスクがあります。また、研究では、結合固定点が摂動に対して脆弱である可能性があると警告しています。ローンチカバレッジでの別の350倍超知能の主張は論文には登場していません。
SIAはMITライセンスで公開されており(hexo-ai/sia)、pipでインストールでき、gpqa、lawbench、longcot-chess、spaceship-titanicの4つのバンドルタスクが同梱されています。