2026-06-04站内改写1 分鐘閱讀更新: 2026-06-04

開源代理與前沿顧問：透過訓練和引擎工程匹配前沿效能

Fireworks AI 和 Harvey 在 Legal Agent Benchmark (LAB) 上探索了兩種系統級技術，以降低對單一前沿模型的依賴，同時以更低成本實現前沿級效能。混合引擎使用開源 GLM 5.1 工作器和 Claude Opus 4.7 顧問，在 100 個任務上以 368 美元成本實現 18/100 的全透過率，超過了僅使用 Opus 的 14/100（成本 954 美元）。對 Kimi K2.6 進行監督微調 (SFT) 和強化微調 (RFT) 後，全透過率以 84 美元成本達到 15/100，平均分從 0.863 提升至 0.886。

來源Fireworks AI Blog

Fireworks AI 和 Harvey 合作，在 Harvey 的 Legal Agent Benchmark (LAB) 上探索了兩種系統級技術，以減少對單一前沿模型呼叫的依賴，同時以更低成本實現前沿級效能。這兩種技術分別是引擎工程和 Fireworks 上的後訓練。

在引擎工程方面，團隊構建了一個小型、意見明確的多代理引擎，以開源模型 GLM 5.1 為核心工作器，並將 Claude Opus 4.7 作為可呼叫的顧問。工作器負責大部分推理、起草和工具呼叫，僅在需要時呼叫顧問。平均每個任務呼叫顧問 0.83 次。這種稀疏但有針對性的使用捕獲了大部分前沿模型的質量提升，同時成本僅為端到端前沿模型的一小部分。結果顯示，GLM 5.1 加 Opus 顧問的引擎在 100 個任務上實現了 18/100 的全透過率，超過了僅使用 Opus 的 14/100，成本為 368 美元，約為 Opus 獨立成本 954 美元的 39%。

在後訓練方面，團隊在 Fireworks 平臺上對 Kimi K2.6 進行了監督微調 (SFT) 和強化微調 (RFT)。SFT 使用透過 LAB 評分標準的軌跡資料進行訓練，無需獎勵模型或人工標註。結果將全透過率從 11/100 提升至 15/100，平均分從 0.863 提升至 0.876，成本僅為 84 美元。RFT 直接針對 LAB 評估器進行訓練，每步提供獎勵訊號，經過 46 步後平均分從 0.863 提升至 0.886，超過了 SFT 的得分。RFT 雖然更嘈雜且計算密集，但捕獲了 SFT 未覆蓋的標準。

這兩個實驗展示了 Fireworks 平臺的能力：支援萬億引數規模的完整後訓練（如 Kimi K2.6），並提供從訓練到服務的位對位交接，沒有研究到生產的差距。開源模型在成本上具有明顯優勢：GLM 5.1 達到 0.8921 平均分僅需 121 美元，而 GPT-5.5 相同得分需 560 美元，Claude Opus 4.7 需 954 美元。

總之，透過引擎工程和後訓練，開源模型在 Legal Agent Benchmark 上縮小了與前沿模型的差距，同時提高了成本效率和系統可控性。