オープンソースエージェントとフロンティアアドバイザー:トレーニングとハーネスエンジニアリングによるフロンティア性能の達成
Fireworks AIとHarveyは、Legal Agent Benchmark (LAB)において、単一のフロンティアモデルの呼び出しへの依存を減らしつつ、低コストでフロンティアレベルの性能を達成するための2つのシステムレベルの技術を探求しました。オープンソースのGLM 5.1ワーカーとClaude Opus 4.7アドバイザーによるハイブリッドハーネスは、100タスクで18/100のオールパスを368ドルで達成し、Opus単独(14/100、954ドル)を上回りました。Kimi K2.6へのSFTおよびRFTによるポストトレーニングでは、オールパスが15/100(84ドル)に向上し、平均スコアも改善されました。
Fireworks AIとHarveyは、HarveyのLegal Agent Benchmark (LAB)において、単一のフロンティアモデルの呼び出しへの依存を減らしつつ、低コストでフロンティアレベルの性能を達成するための2つのシステムレベルの技術を探求しました。それは、ハーネスエンジニアリングとFireworksでのポストトレーニングです。
ハーネスエンジニアリングでは、チームは小さなオピニオンを持ったマルチエージェントハーネスを構築し、オープンソースのGLM 5.1をワーカーとし、Claude Opus 4.7を呼び出し可能なアドバイザーとしました。ワーカーは推論、ドラフト作成、ツール呼び出しの大部分を担当し、必要な場合にのみアドバイザーを呼び出します。アドバイザーの呼び出しはタスクあたり平均0.83回と、まばらで的を絞った使用です。これにより、フロンティアモデルをエンドツーエンドで実行する場合の品質向上の大部分を、クエリあたりのコストのごく一部で実現しました。結果、GLM 5.1 + Opusアドバイザーのハーネスは、100タスクで18/100のオールパスを達成し、Opus単独の14/100を上回り、コストは368ドルでOpusの954ドルの約39%でした。
ポストトレーニングでは、チームはFireworksプラットフォーム上でKimi K2.6に対して教師ありファインチューニング(SFT)と強化学習ファインチューニング(RFT)を実施しました。SFTはLABの評価基準を通過した軌跡データを使用し、報酬モデルや人間による再ラベル付けは不要です。その結果、オールパスが11/100から15/100に上昇し、平均スコアが0.863から0.876に向上、コストは84ドルでした。RFTはLAB評価器に対して直接訓練し、各ステップで報酬信号を提供します。46ステップ後、平均スコアは0.863から0.886に上昇し、SFTのスコアを超えました。RFTはSFTよりもノイズが多く計算集約的ですが、SFTだけでは残る基準を捕捉しました。
これらの実験は、Fireworksプラットフォームの能力を示しています:Kimi K2.6のような1兆パラメータ規模のモデルに対して完全なポストトレーニングをサポートし、訓練からサービスへのビット単位の引き継ぎを提供し、研究から本番へのギャップを排除します。オープンソースモデルはコスト面で明らかに有利です:GLM 5.1は0.8921の平均スコアを121ドルで達成するのに対し、GPT-5.5は同じスコアで560ドル、Claude Opus 4.7は954ドルです。
まとめると、ハーネスエンジニアリングとポストトレーニングにより、オープンソースモデルはLegal Agent Benchmark上でフロンティアモデルとのギャップを縮め、コスト効率とシステムの制御性を向上させました。