開源代理與前沿顧問:透過訓練和引擎工程匹配前沿效能
Fireworks AI 和 Harvey 在 Legal Agent Benchmark (LAB) 上探索了兩種系統級技術,以降低對單一前沿模型的依賴,同時以更低成本實現前沿級效能。混合引擎使用開源 GLM 5.1 工作器和 Claude Opus 4.7 顧問,在 100 個任務上以 368 美元成本實現 18/100 的全透過率,超過了僅使用 Opus 的 14/100(成本 954 美元)。對 Kimi K2.6 進行監督微調 (SFT) 和強化微調 (RFT) 後,全透過率以 84 美元成本達到 15/100,平均分從 0.863 提升至 0.886。
Fireworks AI 和 Harvey 合作,在 Harvey 的 Legal Agent Benchmark (LAB) 上探索了兩種系統級技術,以減少對單一前沿模型呼叫的依賴,同時以更低成本實現前沿級效能。這兩種技術分別是引擎工程和 Fireworks 上的後訓練。
在引擎工程方面,團隊構建了一個小型、意見明確的多代理引擎,以開源模型 GLM 5.1 為核心工作器,並將 Claude Opus 4.7 作為可呼叫的顧問。工作器負責大部分推理、起草和工具呼叫,僅在需要時呼叫顧問。平均每個任務呼叫顧問 0.83 次。這種稀疏但有針對性的使用捕獲了大部分前沿模型的質量提升,同時成本僅為端到端前沿模型的一小部分。結果顯示,GLM 5.1 加 Opus 顧問的引擎在 100 個任務上實現了 18/100 的全透過率,超過了僅使用 Opus 的 14/100,成本為 368 美元,約為 Opus 獨立成本 954 美元的 39%。
在後訓練方面,團隊在 Fireworks 平臺上對 Kimi K2.6 進行了監督微調 (SFT) 和強化微調 (RFT)。SFT 使用透過 LAB 評分標準的軌跡資料進行訓練,無需獎勵模型或人工標註。結果將全透過率從 11/100 提升至 15/100,平均分從 0.863 提升至 0.876,成本僅為 84 美元。RFT 直接針對 LAB 評估器進行訓練,每步提供獎勵訊號,經過 46 步後平均分從 0.863 提升至 0.886,超過了 SFT 的得分。RFT 雖然更嘈雜且計算密集,但捕獲了 SFT 未覆蓋的標準。
這兩個實驗展示了 Fireworks 平臺的能力:支援萬億引數規模的完整後訓練(如 Kimi K2.6),並提供從訓練到服務的位對位交接,沒有研究到生產的差距。開源模型在成本上具有明顯優勢:GLM 5.1 達到 0.8921 平均分僅需 121 美元,而 GPT-5.5 相同得分需 560 美元,Claude Opus 4.7 需 954 美元。
總之,透過引擎工程和後訓練,開源模型在 Legal Agent Benchmark 上縮小了與前沿模型的差距,同時提高了成本效率和系統可控性。