AI News HubLIVE
站内改写2 分钟阅读

低成本前沿AI:开源工作者与闭源顾问的组合方案

本文介绍了一种开源工作者(如Kimi-K2.6或GLM-5.2)与闭源前沿顾问(Claude Opus 4.8)相结合的AI代理架构。该方案在SWE-bench Pro、Terminal-Bench 2.1和Legal Agent Bench三个基准测试中均实现了稳定性能提升,同时将推理成本降低19%至67%。GLM-5.2搭配顾问在Terminal-Bench上达到与Opus相当的水平(约80%),在Legal Agent Bench上甚至超越Opus,成本却低40%。

前沿人工智能通常成本高昂,但一项来自Fireworks AI团队的新研究展示了一种经济高效的替代方案:使用开源工作者代理,并辅以闭源顾问。该方法在多个基准测试中实现了接近前沿模型的性能,同时大幅降低了推理成本。

该架构包含两个核心角色:开源工作者和闭源顾问。工作者(如Kimi-K2.6或GLM-5.2)负责端到端完成任务,包括读取问题、编辑文件、运行命令和验证自身工作。顾问(如Claude Opus 4.8)则在工作者完成自身验证后,审查其工作轨迹和代码差异(diff),并提供具体的通过/失败评估。顾问不能编辑文件,仅作为“大脑”提供反馈,而所有昂贵的实际操作——编写、运行、迭代——均保留在开源工作者上。这种设计使得顾问调用稀疏,而工作者活动密集,从而在保持质量的同时显著降低成本。

实验在三个基准测试上展开:SWE-bench Pro(60个任务,来自11个仓库的抽样)、Terminal-Bench 2.1(84个文本任务)和Legal Agent Benchmark(100个由Harvey团队专家编写的法律任务)。结果表明,这种“工作者+顾问”模式在所有测试中均带来了稳定提升。具体而言,在SWE-bench Pro上,Kimi-K2.6和GLM-5.2的成功率分别提高了4个和7个百分点;在Terminal-Bench 2.1上分别提高8个和4个百分点;在Legal Agent Bench上分别提高1个和4个百分点。值得注意的是,GLM-5.2搭配顾问在Terminal-Bench上达到了与纯Opus工作者相当的水平(约80%),而成本仅为后者的一半(每任务3.50美元对比6.61美元)。在Legal Agent Bench上,该组合甚至超越了Opus,同时成本降低了40%。

成本分析进一步凸显了优势。在所有测试中,开源加顾问模式均比纯Opus工作者更经济。例如,在SWE-bench Pro上,使用GLM-5.2和顾问的成本为每任务6.09美元,而Opus为18.28美元,节省了67%。即便在最便宜的案例(Legal Agent Bench的Kimi组合)中,成本也有19%的节省。研究者指出,GLM模型在质量和成本节约方面均优于Kimi,这得益于其更高的效率和更低的顾问调用需求。

消融实验揭示了关键设计选择。首先,仅审查(review-only)策略优于先计划后审查(plan+review):在6个实验中的5个中性能相当或更优,且在Terminal-Bench上显著更好(Kimi-K2.6:72%对63%),同时顾问调用次数减少一半。其次,顾问必须是前沿模型:使用GLM-5.2同时作为工作者和审查者时,性能无提升甚至下降,而前沿顾问则带来明确增益。最后,顾问的“努力程度”设置为中等即可,高努力并未带来额外质量提升。

该研究还公开了配套代码,作为一个自包含文件发布在Fireworks的cookbook中(github.com/fw-ai/cookbook/tree/main/advisorbook/advisor)。开发者只需在代理指令中添加一行即可集成顾问机制。研究者计划未来探索更多任务类型(如数据分析、网页操作、更长工作流)和新模型,以验证该模式的普适性。

在方法论细节上,研究团队强调审查调用的设计至关重要:顾问被明确指示为怀疑论者,不相信代理的框架或叙述,而是基于实际diff进行审计。校准的置信度阈值(仅80分以上视为严重)和基于git diff的检查标准确保了反馈的精准性,避免了无关紧要的挑剔。此外,团队还进行了裁判模型的一致性验证,使用GLM 5.1作为裁判得到了可比结果,排除了同系列评分偏差。