2026-05-04站内改写

開放模型已跨越門檻

像GLM-5和MiniMax M2.7這樣的開放權重模型在核心智慧體任務（檔案操作、工具使用、指令遵循）上已媲美封閉前沿模型，同時成本更低、延遲更短。LangChain的評估顯示其正確率接近頂級閉源模型，使開放模型適用於生產環境。本文詳細介紹評估方法、結果及如何在Deep Agents SDK中使用開放模型。

文章情報

工程師進階

要點

開放模型GLM-5和MiniMax M2.7在智慧體任務上追平閉源模型。
成本和延遲優勢：價格低至閉源模型的1/20，推理速度更快。
Deep Agents SDK只需一行程式碼即可切換至開放模型。
評估涵蓋7個類別，包括正確率和求解率等指標。

為什麼重要

這條新聞值得關注，因為開放模型GLM-5和MiniMax M2.7在智慧體任務上追平閉源模型。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

過去幾周，LangChain團隊對多個開放權重大語言模型進行了Deep Agents harness評估，初步結果顯示，開放模型在核心智慧體任務上已成為閉源前沿模型的可行替代方案。GLM-5（z.ai）和MiniMax M2.7在檔案操作、工具使用和指令遵循等任務上取得了與Claude Opus、GPT-5.4等閉源模型相近的得分。

開放模型的優勢首先體現在成本上。以定價為例，閉源模型如Claude Opus 4.6每百萬輸出token收費25美元，而MiniMax M2.7僅收1.2美元。對於每天處理1000萬token的應用程式，年成本差異可達8.7萬美元。此外，開放模型通常比閉源模型更小，可以在專用推理基礎設施上加速。例如，Baseten上的GLM-5平均延遲僅0.65秒，而Claude Opus 4.6為2.56秒，差距顯著。

評估方法覆蓋7個類別：檔案操作、工具使用、檢索、對話、記憶、摘要和單元測試。每個測試用例定義了成功斷言（硬性檢查）和效率斷言（軟性檢查）。報告四項指標：正確率（透過測試比例）、求解率（結合正確性和速度）、步數比（實際步數與預期步數之比）和工具呼叫比。結果顯示，GLM-5的正確率為0.64，與Claude Opus 4.6的0.68和GPT-5.4的0.61相當。在檔案操作和單元測試類別中，開放模型甚至獲得滿分。

在Deep Agents SDK中切換到開放模型只需一行程式碼。例如，使用GLM-5只需將model引數設為'baseten:zai-org/GLM-5'。SDK會自動檢測上下文視窗、停用不支援的模態，並注入正確的模型身份。此外，Deep Agents CLI支援執行時模型切換，允許在會話中從前沿模型切換到開放模型。未來，LangChain團隊計劃記錄特定模型族的調優模式，並測試多模型子智慧體配置，如使用閉源模型作為編排器、開放模型作為子智慧體。

開放模型已為智慧體應用做好準備。開發者可以在GitHub上執行自己的評估，並參與構建更好的智慧體。