2026-06-04站内改写1 分钟阅读更新: 2026-06-04

开源代理与前沿顾问：通过训练和引擎工程匹配前沿性能

Fireworks AI 和 Harvey 在 Legal Agent Benchmark (LAB) 上探索了两种系统级技术，以降低对单一前沿模型的依赖，同时以更低成本实现前沿级性能。混合引擎使用开源 GLM 5.1 工作器和 Claude Opus 4.7 顾问，在 100 个任务上以 368 美元成本实现 18/100 的全通过率，超过了仅使用 Opus 的 14/100（成本 954 美元）。对 Kimi K2.6 进行监督微调 (SFT) 和强化微调 (RFT) 后，全通过率以 84 美元成本达到 15/100，平均分从 0.863 提升至 0.886。

来源Fireworks AI Blog

Fireworks AI 和 Harvey 合作，在 Harvey 的 Legal Agent Benchmark (LAB) 上探索了两种系统级技术，以减少对单一前沿模型调用的依赖，同时以更低成本实现前沿级性能。这两种技术分别是引擎工程和 Fireworks 上的后训练。

在引擎工程方面，团队构建了一个小型、意见明确的多代理引擎，以开源模型 GLM 5.1 为核心工作器，并将 Claude Opus 4.7 作为可调用的顾问。工作器负责大部分推理、起草和工具调用，仅在需要时调用顾问。平均每个任务调用顾问 0.83 次。这种稀疏但有针对性的使用捕获了大部分前沿模型的质量提升，同时成本仅为端到端前沿模型的一小部分。结果显示，GLM 5.1 加 Opus 顾问的引擎在 100 个任务上实现了 18/100 的全通过率，超过了仅使用 Opus 的 14/100，成本为 368 美元，约为 Opus 独立成本 954 美元的 39%。

在后训练方面，团队在 Fireworks 平台上对 Kimi K2.6 进行了监督微调 (SFT) 和强化微调 (RFT)。SFT 使用通过 LAB 评分标准的轨迹数据进行训练，无需奖励模型或人工标注。结果将全通过率从 11/100 提升至 15/100，平均分从 0.863 提升至 0.876，成本仅为 84 美元。RFT 直接针对 LAB 评估器进行训练，每步提供奖励信号，经过 46 步后平均分从 0.863 提升至 0.886，超过了 SFT 的得分。RFT 虽然更嘈杂且计算密集，但捕获了 SFT 未覆盖的标准。

这两个实验展示了 Fireworks 平台的能力：支持万亿参数规模的完整后训练（如 Kimi K2.6），并提供从训练到服务的位对位交接，没有研究到生产的差距。开源模型在成本上具有明显优势：GLM 5.1 达到 0.8921 平均分仅需 121 美元，而 GPT-5.5 相同得分需 560 美元，Claude Opus 4.7 需 954 美元。

总之，通过引擎工程和后训练，开源模型在 Legal Agent Benchmark 上缩小了与前沿模型的差距，同时提高了成本效率和系统可控性。