2026-06-27 02:14 UTC+8站内改写2 分钟阅读更新: 2026-06-27 02:14 UTC+8

低成本前沿AI：开源工作者与闭源顾问的组合方案

本文介绍了一种开源工作者（如Kimi-K2.6或GLM-5.2）与闭源前沿顾问（Claude Opus 4.8）相结合的AI代理架构。该方案在SWE-bench Pro、Terminal-Bench 2.1和Legal Agent Bench三个基准测试中均实现了稳定性能提升，同时将推理成本降低19%至67%。GLM-5.2搭配顾问在Terminal-Bench上达到与Opus相当的水平（约80%），在Legal Agent Bench上甚至超越Opus，成本却低40%。

来源Fireworks AI Blog

文章情报

工程师进阶

要点

开源工作者（Kimi-K2.6或GLM-5.2）端到端驱动任务，在最终阶段咨询闭源前沿模型（Claude Opus 4.8）一次。
SWE-bench Pro提升4至7个百分点，Terminal-Bench 2.1提升4至8个百分点，Legal Agent Bench提升1至4个百分点。
GLM-5.2+顾问在Terminal-Bench上与Opus持平（约80%），成本低约47%；在Legal Agent Bench上超越Opus，成本低约40%。
消融实验表明，仅审查优于计划加审查，且顾问必须为前沿模型——自我审查或同级审查无提升。

为什么重要

这条新闻值得关注，因为开源工作者（Kimi-K2.6或GLM-5.2）端到端驱动任务，在最终阶段咨询闭源前沿模型（Claude Opus 4.8）一次。

技术影响

可能影响模型选型、推理成本、产品能力和评测基准。

本面板由 AI 生成，经人工审核。

前沿人工智能通常成本高昂，但一项来自Fireworks AI团队的新研究展示了一种经济高效的替代方案：使用开源工作者代理，并辅以闭源顾问。该方法在多个基准测试中实现了接近前沿模型的性能，同时大幅降低了推理成本。

该架构包含两个核心角色：开源工作者和闭源顾问。工作者（如Kimi-K2.6或GLM-5.2）负责端到端完成任务，包括读取问题、编辑文件、运行命令和验证自身工作。顾问（如Claude Opus 4.8）则在工作者完成自身验证后，审查其工作轨迹和代码差异（diff），并提供具体的通过/失败评估。顾问不能编辑文件，仅作为“大脑”提供反馈，而所有昂贵的实际操作——编写、运行、迭代——均保留在开源工作者上。这种设计使得顾问调用稀疏，而工作者活动密集，从而在保持质量的同时显著降低成本。

实验在三个基准测试上展开：SWE-bench Pro（60个任务，来自11个仓库的抽样）、Terminal-Bench 2.1（84个文本任务）和Legal Agent Benchmark（100个由Harvey团队专家编写的法律任务）。结果表明，这种“工作者+顾问”模式在所有测试中均带来了稳定提升。具体而言，在SWE-bench Pro上，Kimi-K2.6和GLM-5.2的成功率分别提高了4个和7个百分点；在Terminal-Bench 2.1上分别提高8个和4个百分点；在Legal Agent Bench上分别提高1个和4个百分点。值得注意的是，GLM-5.2搭配顾问在Terminal-Bench上达到了与纯Opus工作者相当的水平（约80%），而成本仅为后者的一半（每任务3.50美元对比6.61美元）。在Legal Agent Bench上，该组合甚至超越了Opus，同时成本降低了40%。

成本分析进一步凸显了优势。在所有测试中，开源加顾问模式均比纯Opus工作者更经济。例如，在SWE-bench Pro上，使用GLM-5.2和顾问的成本为每任务6.09美元，而Opus为18.28美元，节省了67%。即便在最便宜的案例（Legal Agent Bench的Kimi组合）中，成本也有19%的节省。研究者指出，GLM模型在质量和成本节约方面均优于Kimi，这得益于其更高的效率和更低的顾问调用需求。

消融实验揭示了关键设计选择。首先，仅审查（review-only）策略优于先计划后审查（plan+review）：在6个实验中的5个中性能相当或更优，且在Terminal-Bench上显著更好（Kimi-K2.6：72%对63%），同时顾问调用次数减少一半。其次，顾问必须是前沿模型：使用GLM-5.2同时作为工作者和审查者时，性能无提升甚至下降，而前沿顾问则带来明确增益。最后，顾问的“努力程度”设置为中等即可，高努力并未带来额外质量提升。

该研究还公开了配套代码，作为一个自包含文件发布在Fireworks的cookbook中（github.com/fw-ai/cookbook/tree/main/advisorbook/advisor）。开发者只需在代理指令中添加一行即可集成顾问机制。研究者计划未来探索更多任务类型（如数据分析、网页操作、更长工作流）和新模型，以验证该模式的普适性。

在方法论细节上，研究团队强调审查调用的设计至关重要：顾问被明确指示为怀疑论者，不相信代理的框架或叙述，而是基于实际diff进行审计。校准的置信度阈值（仅80分以上视为严重）和基于git diff的检查标准确保了反馈的精准性，避免了无关紧要的挑剔。此外，团队还进行了裁判模型的一致性验证，使用GLM 5.1作为裁判得到了可比结果，排除了同系列评分偏差。