AI News HubLIVE
サイト内リライト2 分で読了

Sakana AI、Sakana Fuguを発表:タスクを交換可能なフロンティアLLMプールにルーティングするオーケストレーションモデル

Sakana AI は Sakana Fugu を公開しました。これは単一のAPIエンドポイントを通じてタスクを交換可能なLLMプールにルーティングするマルチエージェントオーケストレーションシステムです。Fugu と Fugu Ultra はコーディング、推論、エージェントベンチマークでトップの成績を達成しました。このシステムは単一ベンダー依存を低減し、複雑なタスクのために内部で専門家モデルを調整します。

ソースMarkTechPost著者: Asif Razzaq

本日、Sakana AI は Sakana Fugu をリリースしました。これは複数の最先端言語モデル(LLM)を単一のAPI背後に統合する革新的なマルチエージェントオーケストレーションシステムです。ユーザーは1つのエンドポイントにリクエストを送信するだけで、Fugu が内部で処理方法を決定します。簡単なタスクは直接解決し、複雑な問題には専門家モデルのチームを編成して協調させます。これにより、マルチエージェントシステムの複雑さはユーザーコードに一切現れません。

Fugu 自体が言語モデルであり、他のLLM(自身の再帰的インスタンスを含む)を呼び出して動的なエージェントプールを形成するように訓練されています。モデル選択、タスク委任、結果検証、最終合成を自律的に管理し、事前定義されたワークフローや役割に依存しません。Sakana AI はこれを単一ベンダー依存へのヘッジとして位置づけています。あるプロバイダーがアクセスを制限した場合、Fugu はプール内の他のモデルに迂回できます。研究チームは、Anthropic の Fable および Mythos モデルに対する最近の輸出規制を動機として挙げています。

Fugu には2つのバリアントがあります。標準版の Fugu はパフォーマンスと低レイテンシーのバランスを重視し、日常的なコーディング、コードレビュー、チャットボットに適しており、特定のエージェントをプールから除外するオプションも提供します。Fugu Ultra は困難な多段階問題向けに最適化されており、より深い固定の専門家プールを使用し、除外オプションはありません。現在のモデルIDは fugu-ultra-20260615 です。

ベンチマークでは、Fugu と Fugu Ultra が非常に強力なパフォーマンスを示しました。11のベンチマークのうち10でトップスコアを獲得。Fugu Ultra は SWE Bench Pro で73.7%、TerminalBench 2.1で82.1%、LiveCodeBench で93.2%、Humanity's Last Exam で50.0%を記録。標準 Fugu は SciCode、τ³ Banking、Long Context Reasoning でリードしました。唯一の例外は MRCRv2 で、GPT 5.5 が勝利しました。これらの結果は Anthropic の Fable 5 や Mythos Preview とほぼ同等です。

実用例では、Fugu Ultra は次のような能力を実証しました。AutoResearch では、小型 GPT のトレーニングレシピを自律的に改善し、約14時間で123の実験を実行。ルービックキューブ解法では、純粋なPythonでソルバーを書き、300個のテストキューブすべてを平均19.72手で解決。古典日本語仮名読み順タスクでは NED 0.80 を達成。ブラインドチェスでは3つのフロンティアモデルとレーティング2100のStockfishエンジンを打ち負かしました。オンライントレーディングシミュレーションでは、50週間で平均+19.43%のリターンを記録しました。

Fugu は OpenAI 互換のAPIを提供するため、SDKの移行は不要です。ユーザーは既存のクライアントをコンソールで提供されるエンドポイントに向けるだけで使用できます。リクエストごとのトークン使用量とコストが報告されるため、リアルタイムでの支出監視が可能です。

初期のコミュニティの反応は懐疑的です。分析された12の公開投稿のうち、6が懐疑的、3が支持(うち2つはSakana AIまたはCEOによるもの)、3が批判的でした。主な疑問は「これは単なるルーターやラッパーなのか」という点です。