2026-06-27 03:14 UTC+9サイト内リライト3 分で読了更新: 2026-06-27 03:14 UTC+9

低コストで最前線のAI：オープンソースワーカーとクローズドソースアドバイザーの組み合わせ

本記事では、オープンソースのワーカーエージェント（Kimi-K2.6またはGLM-5.2）とクローズドソースの最前線モデル（Claude Opus 4.8）を組み合わせたアーキテクチャを紹介。SWE-bench Pro、Terminal-Bench 2.1、Legal Agent Benchの3つのベンチマークで一貫した性能向上を達成し、推論コストを19%から67%削減する。GLM-5.2とアドバイザーの組み合わせはTerminal-BenchでOpusと同等（約80%）でありながらコストは約47%低く、Legal Agent BenchではOpusを上回りコストは40%低い。

ソースFireworks AI Blog

記事インテリジェンス

エンジニア上級

要点

オープンソースワーカー（Kimi-K2.6またはGLM-5.2）がタスクをエンドツーエンドで実行し、最終段階でクローズドソースの最前線モデル（Claude Opus 4.8）に1回だけ相談する。
SWE-bench Proで4～7ポイント、Terminal-Bench 2.1で4～8ポイント、Legal Agent Benchで1～4ポイントの改善。
GLM-5.2+アドバイザーはTerminal-BenchでOpusと同等（約80%）でありながらコストは約47%低く、Legal Agent BenchではOpusを上回りコストは約40%低い。
アブレーション実験では、レビューのみが計画＋レビューよりも優れており、アドバイザーは最前線モデルである必要がある。

重要な理由

このニュースが重要なのは、オープンソースワーカー（Kimi-K2.6またはGLM-5.2）がタスクをエンドツーエンドで実行し、最終段階でクローズドソースの最前線モデル（Claude Opus 4.8）に1回だけ相談するためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

このパネルは AI が生成し、正確性を確認済みです。

最先端の人工知能は通常高コストですが、Fireworks AIチームによる新たな研究により、コスト効率の高い代替手段が示されました。それは、オープンソースのワーカーエージェントにクローズドソースのアドバイザーを組み合わせるアーキテクチャです。この手法は複数のベンチマークで最先端モデルに迫る性能を達成しつつ、推論コストを大幅に削減します。

アーキテクチャは2つの役割から成ります。ワーカー（Kimi-K2.6またはGLM-5.2）は、問題の読み取り、ファイルの編集、コマンドの実行、自身の検証など、タスクをエンドツーエンドで実行します。アドバイザー（Claude Opus 4.8）は、ワーカーが自身の検証を完了した後、その作業の軌跡と差分（diff）を確認し、具体的な合格/不合格の評価を返します。アドバイザーはファイルを編集できず、フィードバックのみを提供する「頭脳」として機能し、高コストな実際の操作はすべてワーカーが担当します。この設計により、アドバイザーの呼び出しはまばらで、ワーカーの活動が集中するため、品質を維持しながらコストを大幅に削減できます。

実験は3つのベンチマークで実施されました。SWE-bench Pro（11のリポジトリから抽出された60タスク）、Terminal-Bench 2.1（84テキストタスク）、Legal Agent Benchmark（Harveyチームの専門家が作成した100タスク）。結果は、すべてのテストで「ワーカー＋アドバイザー」モードが安定した向上をもたらすことを示しています。SWE-bench ProではKimi-K2.6が4ポイント、GLM-5.2が7ポイント向上。Terminal-Bench 2.1ではそれぞれ8ポイントと4ポイント向上。Legal Agent Benchではそれぞれ1ポイントと4ポイント向上しました。特筆すべきは、GLM-5.2とアドバイザーの組み合わせがTerminal-BenchでOpus単独と同等の性能（約80%）を達成しながら、コストは約半分（1タスクあたり3.50ドル対6.61ドル）だったことです。Legal Agent BenchではOpusを上回る性能を発揮し、コストは40%低減しました。

コスト分析では、オープンソース＋アドバイザーモデルがすべてのテストでOpus単独よりも経済的であることが示されました。例えばSWE-bench Proでは、GLM-5.2とアドバイザーのコストは1タスクあたり6.09ドルで、Opusの18.28ドルから67%削減されました。最も節約幅が小さいケース（Legal Agent BenchのKimi組み合わせ）でも19%の削減です。研究者は、GLMモデルがKimiよりも品質とコスト削減の両面で優れていると指摘しています。

アブレーション実験により、重要な設計選択が明らかになりました。まず、レビューのみ（review-only）戦略は計画＋レビュー（plan+review）よりも優れており、6つの実験中5つで同等以上、Terminal-Benchでは明らかに良好（Kimi-K2.6：72%対63%）で、アドバイザー呼び出し回数は半分でした。次に、アドバイザーは最前線モデルでなければなりません。GLM-5.2をワーカー兼レビュアーとして使用した場合、性能は向上せず、むしろ低下しましたが、最前線レビュアーは明確な向上をもたらしました。最後に、アドバイザーの「努力度」は中程度で十分であり、高努力は品質向上につながりませんでした。

研究チームはコードをオープンソースとして公開しており、Fireworksのcookbook（github.com/fw-ai/cookbook/tree/main/advisorbook/advisor）から入手できます。開発者はエージェントの指示に一行追加するだけでアドバイザー機構を統合できます。今後の展望として、研究者はより多くのタスクタイプ（データ分析、Web操作、長時間ワークフローなど）や新しいモデルを探索し、このパターンの普遍性を確認する計画です。

方法論の詳細として、レビュー呼び出しのプロンプト設計が重要です。アドバイザーは懐疑的であるよう指示され、ワーカーの枠組みや説明を信用せず、実際のdiffに基づいて監査します。較正された信頼度しきい値（80以上のみ「重大」と見なす）とgit diffを根拠とするチェック基準により、アドバイザーが些末な問題で作業中のソリューションを埋もれさせるのを防ぎます。また、研究者は評価モデルの一貫性も確認しており、GLM 5.1を評価者として使用しても同等の結果が得られ、同一ファミリーによるスコアバイアスを排除しました。