SIA: オープンソースの自己改善型AI
SIAは、メタエージェント、タスクエージェント、フィードバックエージェントを連携させ、ベンチマークタスクにおけるAIシステムの性能を自律的に向上させるオープンソースフレームワークです。LawBenchで56.6%の向上、GPUカーネル実行時間の91.9%削減、単一細胞RNAデノイジングで502%の改善を達成し、MLE-Bench Hardで第1位を獲得。ローカル実行とカスタムタスクに対応し、MITライセンスで提供されています。
記事インテリジェンス
要点
- SIAはメタ、ターゲット、フィードバックエージェントの反復ループにより自律的に自己改善を行います。
- LawBench、GPUカーネル最適化、scRNAデノイジング、MLE-Benchで顕著な性能向上を達成。
- 簡単なセットアップでローカル実行が可能で、組み込みタスクとカスタムタスクに対応。
- MITライセンスのオープンソースで、GitHubから入手可能。
重要な理由
このニュースが重要なのは、SIAはメタ、ターゲット、フィードバックエージェントの反復ループにより自律的に自己改善を行いますためです。
技術的影響
モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。
SIA(Self-Improving AI)は、ベンチマークタスクにおけるAIシステムの性能を自律的に向上させるためのオープンソースフレームワークです。Hexo Labsによって開発され、MITライセンスのもとでGitHub上で公開されています。その核となるのは、タスクを完了するエージェントを継続的に最適化する自己改善ループです。
SIAのアーキテクチャは、三つの主要なAIエージェントから構成されます。メタエージェントはタスクの説明を読み取り、初期のターゲットエージェントを生成します。ターゲットエージェント(タスク特化型エージェント)はタスクの完了を試み、その行動と結果を記録します。フィードバック/改善エージェントはターゲットエージェントのパフォーマンスログをレビューし、改善点を特定してターゲットエージェントを更新します。この反復プロセスにより、システムは科学的タスクを解決する能力を自律的に洗練・強化します。
このフレームワークは複数のベンチマークで卓越した成果を挙げています。OpenAI MLE-Bench Hard(実際のKaggle機械学習コンペティション群)では、SIAは全世代で第1位を獲得しました。LawBench(中国の裁判事例から刑事責任を予測するタスク)では、SIA-W+Hが70.1%のTop-1精度を達成し、従来の最先端である45%を上回りました。AlphaFold-3の三角形乗法更新をTritonカーネルとして実装・最適化するタスクでは、SIA-W+Hはベースライン比14倍の高速化を実現しました。単一細胞RNAシーケンシングデータのデノイジングでは、SIA-W+Hは0.289のMSEnormスコアを記録し、従来の最高スコア0.220を超えました。
SIAはローカル実行に対応しており、gpqa、lawbench、longcot-chess、spaceship-titanicの4つの組み込みタスクが含まれています。インストールはpipコマンドで簡単に行え、ClaudeバックエンドやOpenHandsバックエンドなど、複数のエージェントバックエンドから選択できます。ユーザーは独自のタスクを用意して--task_dirオプションで指定することも可能です。また、MLE-Benchのコンペティションから直接タスクディレクトリをブートストラップする機能も提供されています。
SIAの研究論文はarXiv(arXiv:2605.27276)で公開されており、「SIA: Self Improving AI with Harness & Weight Updates」と題されています。このフレームワークはオープンソースであるため、研究者や開発者は自由に使用、修正、貢献することができ、AI自己改善技術の発展を促進します。