AI News HubLIVE
サイト内リライト3 分で読了

低コストで最前線のAI:オープンソースワーカーとクローズドソースアドバイザーの組み合わせ

本記事では、オープンソースのワーカーエージェント(Kimi-K2.6またはGLM-5.2)とクローズドソースの最前線モデル(Claude Opus 4.8)を組み合わせたアーキテクチャを紹介。SWE-bench Pro、Terminal-Bench 2.1、Legal Agent Benchの3つのベンチマークで一貫した性能向上を達成し、推論コストを19%から67%削減する。GLM-5.2とアドバイザーの組み合わせはTerminal-BenchでOpusと同等(約80%)でありながらコストは約47%低く、Legal Agent BenchではOpusを上回りコストは40%低い。

最先端の人工知能は通常高コストですが、Fireworks AIチームによる新たな研究により、コスト効率の高い代替手段が示されました。それは、オープンソースのワーカーエージェントにクローズドソースのアドバイザーを組み合わせるアーキテクチャです。この手法は複数のベンチマークで最先端モデルに迫る性能を達成しつつ、推論コストを大幅に削減します。

アーキテクチャは2つの役割から成ります。ワーカー(Kimi-K2.6またはGLM-5.2)は、問題の読み取り、ファイルの編集、コマンドの実行、自身の検証など、タスクをエンドツーエンドで実行します。アドバイザー(Claude Opus 4.8)は、ワーカーが自身の検証を完了した後、その作業の軌跡と差分(diff)を確認し、具体的な合格/不合格の評価を返します。アドバイザーはファイルを編集できず、フィードバックのみを提供する「頭脳」として機能し、高コストな実際の操作はすべてワーカーが担当します。この設計により、アドバイザーの呼び出しはまばらで、ワーカーの活動が集中するため、品質を維持しながらコストを大幅に削減できます。

実験は3つのベンチマークで実施されました。SWE-bench Pro(11のリポジトリから抽出された60タスク)、Terminal-Bench 2.1(84テキストタスク)、Legal Agent Benchmark(Harveyチームの専門家が作成した100タスク)。結果は、すべてのテストで「ワーカー+アドバイザー」モードが安定した向上をもたらすことを示しています。SWE-bench ProではKimi-K2.6が4ポイント、GLM-5.2が7ポイント向上。Terminal-Bench 2.1ではそれぞれ8ポイントと4ポイント向上。Legal Agent Benchではそれぞれ1ポイントと4ポイント向上しました。特筆すべきは、GLM-5.2とアドバイザーの組み合わせがTerminal-BenchでOpus単独と同等の性能(約80%)を達成しながら、コストは約半分(1タスクあたり3.50ドル対6.61ドル)だったことです。Legal Agent BenchではOpusを上回る性能を発揮し、コストは40%低減しました。

コスト分析では、オープンソース+アドバイザーモデルがすべてのテストでOpus単独よりも経済的であることが示されました。例えばSWE-bench Proでは、GLM-5.2とアドバイザーのコストは1タスクあたり6.09ドルで、Opusの18.28ドルから67%削減されました。最も節約幅が小さいケース(Legal Agent BenchのKimi組み合わせ)でも19%の削減です。研究者は、GLMモデルがKimiよりも品質とコスト削減の両面で優れていると指摘しています。

アブレーション実験により、重要な設計選択が明らかになりました。まず、レビューのみ(review-only)戦略は計画+レビュー(plan+review)よりも優れており、6つの実験中5つで同等以上、Terminal-Benchでは明らかに良好(Kimi-K2.6:72%対63%)で、アドバイザー呼び出し回数は半分でした。次に、アドバイザーは最前線モデルでなければなりません。GLM-5.2をワーカー兼レビュアーとして使用した場合、性能は向上せず、むしろ低下しましたが、最前線レビュアーは明確な向上をもたらしました。最後に、アドバイザーの「努力度」は中程度で十分であり、高努力は品質向上につながりませんでした。

研究チームはコードをオープンソースとして公開しており、Fireworksのcookbook(github.com/fw-ai/cookbook/tree/main/advisorbook/advisor)から入手できます。開発者はエージェントの指示に一行追加するだけでアドバイザー機構を統合できます。今後の展望として、研究者はより多くのタスクタイプ(データ分析、Web操作、長時間ワークフローなど)や新しいモデルを探索し、このパターンの普遍性を確認する計画です。

方法論の詳細として、レビュー呼び出しのプロンプト設計が重要です。アドバイザーは懐疑的であるよう指示され、ワーカーの枠組みや説明を信用せず、実際のdiffに基づいて監査します。較正された信頼度しきい値(80以上のみ「重大」と見なす)とgit diffを根拠とするチェック基準により、アドバイザーが些末な問題で作業中のソリューションを埋もれさせるのを防ぎます。また、研究者は評価モデルの一貫性も確認しており、GLM 5.1を評価者として使用しても同等の結果が得られ、同一ファミリーによるスコアバイアスを排除しました。