AI News HubLIVE
站内改写1 分钟阅读

开源代理与前沿顾问:通过训练和引擎工程匹配前沿性能

Fireworks AI 和 Harvey 在 Legal Agent Benchmark (LAB) 上探索了两种系统级技术,以降低对单一前沿模型的依赖,同时以更低成本实现前沿级性能。混合引擎使用开源 GLM 5.1 工作器和 Claude Opus 4.7 顾问,在 100 个任务上以 368 美元成本实现 18/100 的全通过率,超过了仅使用 Opus 的 14/100(成本 954 美元)。对 Kimi K2.6 进行监督微调 (SFT) 和强化微调 (RFT) 后,全通过率以 84 美元成本达到 15/100,平均分从 0.863 提升至 0.886。

Fireworks AI 和 Harvey 合作,在 Harvey 的 Legal Agent Benchmark (LAB) 上探索了两种系统级技术,以减少对单一前沿模型调用的依赖,同时以更低成本实现前沿级性能。这两种技术分别是引擎工程和 Fireworks 上的后训练。

在引擎工程方面,团队构建了一个小型、意见明确的多代理引擎,以开源模型 GLM 5.1 为核心工作器,并将 Claude Opus 4.7 作为可调用的顾问。工作器负责大部分推理、起草和工具调用,仅在需要时调用顾问。平均每个任务调用顾问 0.83 次。这种稀疏但有针对性的使用捕获了大部分前沿模型的质量提升,同时成本仅为端到端前沿模型的一小部分。结果显示,GLM 5.1 加 Opus 顾问的引擎在 100 个任务上实现了 18/100 的全通过率,超过了仅使用 Opus 的 14/100,成本为 368 美元,约为 Opus 独立成本 954 美元的 39%。

在后训练方面,团队在 Fireworks 平台上对 Kimi K2.6 进行了监督微调 (SFT) 和强化微调 (RFT)。SFT 使用通过 LAB 评分标准的轨迹数据进行训练,无需奖励模型或人工标注。结果将全通过率从 11/100 提升至 15/100,平均分从 0.863 提升至 0.876,成本仅为 84 美元。RFT 直接针对 LAB 评估器进行训练,每步提供奖励信号,经过 46 步后平均分从 0.863 提升至 0.886,超过了 SFT 的得分。RFT 虽然更嘈杂且计算密集,但捕获了 SFT 未覆盖的标准。

这两个实验展示了 Fireworks 平台的能力:支持万亿参数规模的完整后训练(如 Kimi K2.6),并提供从训练到服务的位对位交接,没有研究到生产的差距。开源模型在成本上具有明显优势:GLM 5.1 达到 0.8921 平均分仅需 121 美元,而 GPT-5.5 相同得分需 560 美元,Claude Opus 4.7 需 954 美元。

总之,通过引擎工程和后训练,开源模型在 Legal Agent Benchmark 上缩小了与前沿模型的差距,同时提高了成本效率和系统可控性。