AI News HubLIVE
站内改写

開放模型已跨越門檻

像GLM-5和MiniMax M2.7這樣的開放權重模型在核心智慧體任務(檔案操作、工具使用、指令遵循)上已媲美封閉前沿模型,同時成本更低、延遲更短。LangChain的評估顯示其正確率接近頂級閉源模型,使開放模型適用於生產環境。本文詳細介紹評估方法、結果及如何在Deep Agents SDK中使用開放模型。

文章情報

工程師進階

要點

  • 開放模型GLM-5和MiniMax M2.7在智慧體任務上追平閉源模型。
  • 成本和延遲優勢:價格低至閉源模型的1/20,推理速度更快。
  • Deep Agents SDK只需一行程式碼即可切換至開放模型。
  • 評估涵蓋7個類別,包括正確率和求解率等指標。

為什麼重要

這條新聞值得關注,因為開放模型GLM-5和MiniMax M2.7在智慧體任務上追平閉源模型。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

過去幾周,LangChain團隊對多個開放權重大語言模型進行了Deep Agents harness評估,初步結果顯示,開放模型在核心智慧體任務上已成為閉源前沿模型的可行替代方案。GLM-5(z.ai)和MiniMax M2.7在檔案操作、工具使用和指令遵循等任務上取得了與Claude Opus、GPT-5.4等閉源模型相近的得分。

開放模型的優勢首先體現在成本上。以定價為例,閉源模型如Claude Opus 4.6每百萬輸出token收費25美元,而MiniMax M2.7僅收1.2美元。對於每天處理1000萬token的應用程式,年成本差異可達8.7萬美元。此外,開放模型通常比閉源模型更小,可以在專用推理基礎設施上加速。例如,Baseten上的GLM-5平均延遲僅0.65秒,而Claude Opus 4.6為2.56秒,差距顯著。

評估方法覆蓋7個類別:檔案操作、工具使用、檢索、對話、記憶、摘要和單元測試。每個測試用例定義了成功斷言(硬性檢查)和效率斷言(軟性檢查)。報告四項指標:正確率(透過測試比例)、求解率(結合正確性和速度)、步數比(實際步數與預期步數之比)和工具呼叫比。結果顯示,GLM-5的正確率為0.64,與Claude Opus 4.6的0.68和GPT-5.4的0.61相當。在檔案操作和單元測試類別中,開放模型甚至獲得滿分。

在Deep Agents SDK中切換到開放模型只需一行程式碼。例如,使用GLM-5只需將model引數設為'baseten:zai-org/GLM-5'。SDK會自動檢測上下文視窗、停用不支援的模態,並注入正確的模型身份。此外,Deep Agents CLI支援執行時模型切換,允許在會話中從前沿模型切換到開放模型。未來,LangChain團隊計劃記錄特定模型族的調優模式,並測試多模型子智慧體配置,如使用閉源模型作為編排器、開放模型作為子智慧體。

開放模型已為智慧體應用做好準備。開發者可以在GitHub上執行自己的評估,並參與構建更好的智慧體。