2026-06-04站内改写2 分で読了更新: 2026-06-04

オープンソースエージェントとフロンティアアドバイザー：トレーニングとハーネスエンジニアリングによるフロンティア性能の達成

Fireworks AIとHarveyは、Legal Agent Benchmark (LAB)において、単一のフロンティアモデルの呼び出しへの依存を減らしつつ、低コストでフロンティアレベルの性能を達成するための2つのシステムレベルの技術を探求しました。オープンソースのGLM 5.1ワーカーとClaude Opus 4.7アドバイザーによるハイブリッドハーネスは、100タスクで18/100のオールパスを368ドルで達成し、Opus単独（14/100、954ドル）を上回りました。Kimi K2.6へのSFTおよびRFTによるポストトレーニングでは、オールパスが15/100（84ドル）に向上し、平均スコアも改善されました。

ソースFireworks AI Blog

記事インテリジェンス

エンジニア上級

要点

オープンソースワーカーとフロンティアアドバイザーを呼び出し可能なツールとして使用するハイブリッドハーネスは、エンドツーエンドのフロンティアモデルよりも低コストで高いオールパスを達成します。
Fireworksでのポストトレーニング：SFTによりオールパスが11/100から15/100に向上。RFTにより平均スコアが0.863から0.886に向上。
GLM 5.1やKimi K2.6などのオープンソースモデルは、品質面でクローズドなフロンティアモデルと競争力があり、コストは大幅に低いです。
Fireworksプラットフォームは、モデルのトレーニング、評価、サービングのためのシームレスな研究から本番へのパイプラインを提供します。

重要な理由

このニュースが重要なのは、オープンソースワーカーとフロンティアアドバイザーを呼び出し可能なツールとして使用するハイブリッドハーネスは、エンドツーエンドのフロンティアモデルよりも低コストで高いオールパスを達成しますためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

Fireworks AIとHarveyは、HarveyのLegal Agent Benchmark (LAB)において、単一のフロンティアモデルの呼び出しへの依存を減らしつつ、低コストでフロンティアレベルの性能を達成するための2つのシステムレベルの技術を探求しました。それは、ハーネスエンジニアリングとFireworksでのポストトレーニングです。

ハーネスエンジニアリングでは、チームは小さなオピニオンを持ったマルチエージェントハーネスを構築し、オープンソースのGLM 5.1をワーカーとし、Claude Opus 4.7を呼び出し可能なアドバイザーとしました。ワーカーは推論、ドラフト作成、ツール呼び出しの大部分を担当し、必要な場合にのみアドバイザーを呼び出します。アドバイザーの呼び出しはタスクあたり平均0.83回と、まばらで的を絞った使用です。これにより、フロンティアモデルをエンドツーエンドで実行する場合の品質向上の大部分を、クエリあたりのコストのごく一部で実現しました。結果、GLM 5.1 + Opusアドバイザーのハーネスは、100タスクで18/100のオールパスを達成し、Opus単独の14/100を上回り、コストは368ドルでOpusの954ドルの約39%でした。

ポストトレーニングでは、チームはFireworksプラットフォーム上でKimi K2.6に対して教師ありファインチューニング（SFT）と強化学習ファインチューニング（RFT）を実施しました。SFTはLABの評価基準を通過した軌跡データを使用し、報酬モデルや人間による再ラベル付けは不要です。その結果、オールパスが11/100から15/100に上昇し、平均スコアが0.863から0.876に向上、コストは84ドルでした。RFTはLAB評価器に対して直接訓練し、各ステップで報酬信号を提供します。46ステップ後、平均スコアは0.863から0.886に上昇し、SFTのスコアを超えました。RFTはSFTよりもノイズが多く計算集約的ですが、SFTだけでは残る基準を捕捉しました。

これらの実験は、Fireworksプラットフォームの能力を示しています：Kimi K2.6のような1兆パラメータ規模のモデルに対して完全なポストトレーニングをサポートし、訓練からサービスへのビット単位の引き継ぎを提供し、研究から本番へのギャップを排除します。オープンソースモデルはコスト面で明らかに有利です：GLM 5.1は0.8921の平均スコアを121ドルで達成するのに対し、GPT-5.5は同じスコアで560ドル、Claude Opus 4.7は954ドルです。

まとめると、ハーネスエンジニアリングとポストトレーニングにより、オープンソースモデルはLegal Agent Benchmark上でフロンティアモデルとのギャップを縮め、コスト効率とシステムの制御性を向上させました。