2026-06-17站内改写3 分鐘閱讀更新: 2026-06-17

GLM-5.2：專為長週期任務構建

GLM-5.2 是 Z.AI 推出的最新旗艦模型，專為長週期任務設計，擁有穩定的 1M 上下文窗口，在編碼基準測試中表現優異，並引入 IndexShare 架構以降低計算成本，同時提供靈活的努力水平控制。該模型採用 MIT 開源許可證，無區域限制。

來源Hugging Face Blog

Z.AI 團隊正式發佈 GLM-5.2，這是其最新旗艦模型，專注於長週期任務。相比前代 GLM-5.1，GLM-5.2 在長週期任務能力上實現了顯著飛躍，並首次在穩定的 1M token 上下文窗口上提供這一能力。

GLM-5.2 的新特性包括：穩定 1M 上下文，可持續支撐長週期工作；高級編碼能力，具有多種思考努力水平以平衡性能與延遲；改進的架構 IndexShare，在每四個稀疏注意力層間複用相同的索引器，在 1M 上下文長度下將每 token FLOPs 降低 2.9 倍；同時改進了 MTP 層，使推測解碼的接受長度提升高達 20%。該模型採用 MIT 開源許可證，無區域限制，實現無國界的技術訪問。

長週期任務的支持始於長上下文在工程中的可用性：模型必須在長而混亂的編碼代理軌跡中保持質量，而不僅僅是接受更多 token。1M 上下文容易宣稱，但在實際工程壓力下保持可靠卻困難得多。為此，團隊大幅擴展了針對編碼代理場景的 1M 上下文訓練，涵蓋大規模實現、自動化研究、性能優化和複雜調試。最終打造出一個不僅範圍廣、而且執行紮實的長上下文系統，為持續工程工作提供了實用基礎。

這一能力在三個長週期編碼基準中得到體現。FrontierSWE 衡量代理完成從數小時到數十小時開放式技術項目的能力，涵蓋系統優化、大規模代碼構建和應用 ML 研究。在該基準上，GLM-5.2 僅落後 Opus 4.8 1%，同時領先 GPT-5.5 1% 和 Opus 4.7 11%。在 PostTrainBench 上，每個代理配備一塊 H100 GPU，評估其通過後訓練提升小模型的能力，GLM-5.2 優於 Opus 4.7 和 GPT-5.5，僅次於 Opus 4.8。在 SWE-Marathon 超長週期軟件工程基準上，GLM-5.2 仍有提升空間，落後 Opus 4.8 13%，但僅次於 Opus 系列。在所有三個基準上，GLM-5.2 都是排名最高的開源模型，表明其 1M 上下文已轉化為實際的長週期交付能力。

在標準編碼基準上，GLM-5.2 是最強的開源模型，相比 GLM-5.1 大幅提升：Terminal-Bench 2.1 上 81.0 vs. 63.5，SWE-bench Pro 上 62.1 vs. 58.4。它顯著縮小了與封閉源前沿模型的差距——在 Terminal-Bench 2.1 上（81.0）與 Claude Opus 4.8（85.0）相差無幾，同時領先 Gemini 3.1 Pro。

GLM-5.2 還引入了努力水平控制，使用户能夠顯式平衡模型能力與任務執行速度和計算成本。在相當的 token 預算下，GLM-5.2 的代理編碼性能遠超 GLM-5.1，其能力大致介於 Claude Opus 4.7 和 Claude Opus 4.8 之間。最大努力水平允許用户在挑戰性任務中分配更多計算資源，進一步擴展編碼能力。

在架構方面，GLM-5.2 採用 IndexShare 降低 DSA 索引器的計算成本。具體地，每 4 個 Transformer 層共享一個輕量級索引器，放置在四層中的第一層，topk 索引被四層共用，減少了 3/4 層的索引器點積和 topk 運算。GLM-5.2 從 128K 序列長度的中訓練階段開始使用 IndexShare 訓練，在長上下文基準上以更少計算量超越 GLM-5.1。

GLM-5.2 改進了 MTP 層用於推測解碼，目標是最小化 MTP 層作為草稿模型的成本並最大化接受率。在 MTP 層上也應用了 IndexShare，並在多步 MTP 中複用第一大步的 KV 緩存和索引，結合拒絕採樣和端到端 TV 損失訓練，使接受長度提升 20%。

針對 1M 上下文的高效服務，GLM-5.2 沿三個方向優化推理引擎：基於 LayerSplit 的細粒度內存管理和並行化策略增加 KV 緩存容量；優化隨上下文長度增長的核函數，並協調緩存傳輸流水線；優化 CPU 端緩存管理、請求調度和運行時執行路徑，減少 GPU 執行流水線中的氣泡。隨着上下文長度增長，GLM-5.2 的吞吐量優勢越來越大，展現出更強的可擴展性。

在後訓練方面，GLM-5.2 的智能體強化學習（RL）涉及更大規模的任務、更多領域和更復雜的執行模式。slime 框架作為從訓練到大規模推理部署的集成基礎設施層，支持白盒 rollout、黑盒 rollout、緊湊軌跡和子代理工作流，使同一系統能擴展到更大更復雜的 RL 和 OPD 訓練工作負載。在 GLM-5.2 的後訓練過程中，使用 slime 框架進行並行 OPD 訓練，高效地將十多個專家模型合併到最終模型中，整個過程約需兩天。

RL 訓練中引入反黑客模塊，防止獎勵黑客行為，例如代理讀取受保護評估工件、從參考或上游提交複製答案內容等。該檢測機制可識別並抑制此類捷徑，確保訓練信號反映真實任務解決能力。