低成本前沿AI:開源工作者與閉源顧問的組合方案
本文介紹了一種開源工作者(如Kimi-K2.6或GLM-5.2)與閉源前沿顧問(Claude Opus 4.8)相結合的AI代理架構。該方案在SWE-bench Pro、Terminal-Bench 2.1和Legal Agent Bench三個基準測試中均實現了穩定效能提升,同時將推理成本降低19%至67%。GLM-5.2搭配顧問在Terminal-Bench上達到與Opus相當的水平(約80%),在Legal Agent Bench上甚至超越Opus,成本卻低40%。
前沿人工智慧通常成本高昂,但一項來自Fireworks AI團隊的新研究展示了一種經濟高效的替代方案:使用開源工作者代理,並輔以閉源顧問。該方法在多個基準測試中實現了接近前沿模型的效能,同時大幅降低了推理成本。
該架構包含兩個核心角色:開源工作者和閉源顧問。工作者(如Kimi-K2.6或GLM-5.2)負責端到端完成任務,包括讀取問題、編輯檔案、執行命令和驗證自身工作。顧問(如Claude Opus 4.8)則在工作者完成自身驗證後,審查其工作軌跡和程式碼差異(diff),並提供具體的透過/失敗評估。顧問不能編輯檔案,僅作為“大腦”提供反饋,而所有昂貴的實際操作——編寫、執行、迭代——均保留在開源工作者上。這種設計使得顧問呼叫稀疏,而工作者活動密集,從而在保持質量的同時顯著降低成本。
實驗在三個基準測試上展開:SWE-bench Pro(60個任務,來自11個倉庫的抽樣)、Terminal-Bench 2.1(84個文本任務)和Legal Agent Benchmark(100個由Harvey團隊專家編寫的法律任務)。結果表明,這種“工作者+顧問”模式在所有測試中均帶來了穩定提升。具體而言,在SWE-bench Pro上,Kimi-K2.6和GLM-5.2的成功率分別提高了4個和7個百分點;在Terminal-Bench 2.1上分別提高8個和4個百分點;在Legal Agent Bench上分別提高1個和4個百分點。值得注意的是,GLM-5.2搭配顧問在Terminal-Bench上達到了與純Opus工作者相當的水平(約80%),而成本僅為後者的一半(每任務3.50美元對比6.61美元)。在Legal Agent Bench上,該組合甚至超越了Opus,同時成本降低了40%。
成本分析進一步凸顯了優勢。在所有測試中,開源加顧問模式均比純Opus工作者更經濟。例如,在SWE-bench Pro上,使用GLM-5.2和顧問的成本為每任務6.09美元,而Opus為18.28美元,節省了67%。即便在最便宜的案例(Legal Agent Bench的Kimi組合)中,成本也有19%的節省。研究者指出,GLM模型在質量和成本節約方面均優於Kimi,這得益於其更高的效率和更低的顧問呼叫需求。
消融實驗揭示了關鍵設計選擇。首先,僅審查(review-only)策略優於先計劃後審查(plan+review):在6個實驗中的5箇中效能相當或更優,且在Terminal-Bench上顯著更好(Kimi-K2.6:72%對63%),同時顧問呼叫次數減少一半。其次,顧問必須是前沿模型:使用GLM-5.2同時作為工作者和審查者時,效能無提升甚至下降,而前沿顧問則帶來明確增益。最後,顧問的“努力程度”設定為中等即可,高努力並未帶來額外質量提升。
該研究還公開了配套程式碼,作為一個自包含檔案釋出在Fireworks的cookbook中(github.com/fw-ai/cookbook/tree/main/advisorbook/advisor)。開發者只需在代理指令中新增一行即可整合顧問機制。研究者計劃未來探索更多工型別(如資料分析、網頁操作、更長工作流)和新模型,以驗證該模式的普適性。
在方法論細節上,研究團隊強調審查呼叫的設計至關重要:顧問被明確指示為懷疑論者,不相信代理的框架或敘述,而是基於實際diff進行審計。校準的置信度閾值(僅80分以上視為嚴重)和基於git diff的檢查標準確保了反饋的精準性,避免了無關緊要的挑剔。此外,團隊還進行了裁判模型的一致性驗證,使用GLM 5.1作為裁判得到了可比結果,排除了同系列評分偏差。