2026-06-27 02:14 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-27 02:14 UTC+8

低成本前沿AI：開源工作者與閉源顧問的組合方案

本文介紹了一種開源工作者（如Kimi-K2.6或GLM-5.2）與閉源前沿顧問（Claude Opus 4.8）相結合的AI代理架構。該方案在SWE-bench Pro、Terminal-Bench 2.1和Legal Agent Bench三個基準測試中均實現了穩定效能提升，同時將推理成本降低19%至67%。GLM-5.2搭配顧問在Terminal-Bench上達到與Opus相當的水平（約80%），在Legal Agent Bench上甚至超越Opus，成本卻低40%。

來源Fireworks AI Blog

文章情報

工程師進階

要點

開源工作者（Kimi-K2.6或GLM-5.2）端到端驅動任務，在最終階段諮詢閉源前沿模型（Claude Opus 4.8）一次。
SWE-bench Pro提升4至7個百分點，Terminal-Bench 2.1提升4至8個百分點，Legal Agent Bench提升1至4個百分點。
GLM-5.2+顧問在Terminal-Bench上與Opus持平（約80%），成本低約47%；在Legal Agent Bench上超越Opus，成本低約40%。
消融實驗表明，僅審查優於計劃加審查，且顧問必須為前沿模型——自我審查或同級審查無提升。

為什麼重要

這條新聞值得關注，因為開源工作者（Kimi-K2.6或GLM-5.2）端到端驅動任務，在最終階段諮詢閉源前沿模型（Claude Opus 4.8）一次。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

本面板由 AI 生成，經人工審核。

前沿人工智慧通常成本高昂，但一項來自Fireworks AI團隊的新研究展示了一種經濟高效的替代方案：使用開源工作者代理，並輔以閉源顧問。該方法在多個基準測試中實現了接近前沿模型的效能，同時大幅降低了推理成本。

該架構包含兩個核心角色：開源工作者和閉源顧問。工作者（如Kimi-K2.6或GLM-5.2）負責端到端完成任務，包括讀取問題、編輯檔案、執行命令和驗證自身工作。顧問（如Claude Opus 4.8）則在工作者完成自身驗證後，審查其工作軌跡和程式碼差異（diff），並提供具體的透過/失敗評估。顧問不能編輯檔案，僅作為“大腦”提供反饋，而所有昂貴的實際操作——編寫、執行、迭代——均保留在開源工作者上。這種設計使得顧問呼叫稀疏，而工作者活動密集，從而在保持質量的同時顯著降低成本。

實驗在三個基準測試上展開：SWE-bench Pro（60個任務，來自11個倉庫的抽樣）、Terminal-Bench 2.1（84個文本任務）和Legal Agent Benchmark（100個由Harvey團隊專家編寫的法律任務）。結果表明，這種“工作者+顧問”模式在所有測試中均帶來了穩定提升。具體而言，在SWE-bench Pro上，Kimi-K2.6和GLM-5.2的成功率分別提高了4個和7個百分點；在Terminal-Bench 2.1上分別提高8個和4個百分點；在Legal Agent Bench上分別提高1個和4個百分點。值得注意的是，GLM-5.2搭配顧問在Terminal-Bench上達到了與純Opus工作者相當的水平（約80%），而成本僅為後者的一半（每任務3.50美元對比6.61美元）。在Legal Agent Bench上，該組合甚至超越了Opus，同時成本降低了40%。

成本分析進一步凸顯了優勢。在所有測試中，開源加顧問模式均比純Opus工作者更經濟。例如，在SWE-bench Pro上，使用GLM-5.2和顧問的成本為每任務6.09美元，而Opus為18.28美元，節省了67%。即便在最便宜的案例（Legal Agent Bench的Kimi組合）中，成本也有19%的節省。研究者指出，GLM模型在質量和成本節約方面均優於Kimi，這得益於其更高的效率和更低的顧問呼叫需求。

消融實驗揭示了關鍵設計選擇。首先，僅審查（review-only）策略優於先計劃後審查（plan+review）：在6個實驗中的5箇中效能相當或更優，且在Terminal-Bench上顯著更好（Kimi-K2.6：72%對63%），同時顧問呼叫次數減少一半。其次，顧問必須是前沿模型：使用GLM-5.2同時作為工作者和審查者時，效能無提升甚至下降，而前沿顧問則帶來明確增益。最後，顧問的“努力程度”設定為中等即可，高努力並未帶來額外質量提升。

該研究還公開了配套程式碼，作為一個自包含檔案釋出在Fireworks的cookbook中（github.com/fw-ai/cookbook/tree/main/advisorbook/advisor）。開發者只需在代理指令中新增一行即可整合顧問機制。研究者計劃未來探索更多工型別（如資料分析、網頁操作、更長工作流）和新模型，以驗證該模式的普適性。

在方法論細節上，研究團隊強調審查呼叫的設計至關重要：顧問被明確指示為懷疑論者，不相信代理的框架或敘述，而是基於實際diff進行審計。校準的置信度閾值（僅80分以上視為嚴重）和基於git diff的檢查標準確保了反饋的精準性，避免了無關緊要的挑剔。此外，團隊還進行了裁判模型的一致性驗證，使用GLM 5.1作為裁判得到了可比結果，排除了同系列評分偏差。