AI News HubLIVE
站内改写3 分鐘閱讀

GLM-5.2:專為長週期任務構建

GLM-5.2 是 Z.AI 推出的最新旗艦模型,專為長週期任務設計,擁有穩定的 1M 上下文窗口,在編碼基準測試中表現優異,並引入 IndexShare 架構以降低計算成本,同時提供靈活的努力水平控制。該模型採用 MIT 開源許可證,無區域限制。

Z.AI 團隊正式發佈 GLM-5.2,這是其最新旗艦模型,專注於長週期任務。相比前代 GLM-5.1,GLM-5.2 在長週期任務能力上實現了顯著飛躍,並首次在穩定的 1M token 上下文窗口上提供這一能力。

GLM-5.2 的新特性包括:穩定 1M 上下文,可持續支撐長週期工作;高級編碼能力,具有多種思考努力水平以平衡性能與延遲;改進的架構 IndexShare,在每四個稀疏注意力層間複用相同的索引器,在 1M 上下文長度下將每 token FLOPs 降低 2.9 倍;同時改進了 MTP 層,使推測解碼的接受長度提升高達 20%。該模型採用 MIT 開源許可證,無區域限制,實現無國界的技術訪問。

長週期任務的支持始於長上下文在工程中的可用性:模型必須在長而混亂的編碼代理軌跡中保持質量,而不僅僅是接受更多 token。1M 上下文容易宣稱,但在實際工程壓力下保持可靠卻困難得多。為此,團隊大幅擴展了針對編碼代理場景的 1M 上下文訓練,涵蓋大規模實現、自動化研究、性能優化和複雜調試。最終打造出一個不僅範圍廣、而且執行紮實的長上下文系統,為持續工程工作提供了實用基礎。

這一能力在三個長週期編碼基準中得到體現。FrontierSWE 衡量代理完成從數小時到數十小時開放式技術項目的能力,涵蓋系統優化、大規模代碼構建和應用 ML 研究。在該基準上,GLM-5.2 僅落後 Opus 4.8 1%,同時領先 GPT-5.5 1% 和 Opus 4.7 11%。在 PostTrainBench 上,每個代理配備一塊 H100 GPU,評估其通過後訓練提升小模型的能力,GLM-5.2 優於 Opus 4.7 和 GPT-5.5,僅次於 Opus 4.8。在 SWE-Marathon 超長週期軟件工程基準上,GLM-5.2 仍有提升空間,落後 Opus 4.8 13%,但僅次於 Opus 系列。在所有三個基準上,GLM-5.2 都是排名最高的開源模型,表明其 1M 上下文已轉化為實際的長週期交付能力。

在標準編碼基準上,GLM-5.2 是最強的開源模型,相比 GLM-5.1 大幅提升:Terminal-Bench 2.1 上 81.0 vs. 63.5,SWE-bench Pro 上 62.1 vs. 58.4。它顯著縮小了與封閉源前沿模型的差距——在 Terminal-Bench 2.1 上(81.0)與 Claude Opus 4.8(85.0)相差無幾,同時領先 Gemini 3.1 Pro。

GLM-5.2 還引入了努力水平控制,使用户能夠顯式平衡模型能力與任務執行速度和計算成本。在相當的 token 預算下,GLM-5.2 的代理編碼性能遠超 GLM-5.1,其能力大致介於 Claude Opus 4.7 和 Claude Opus 4.8 之間。最大努力水平允許用户在挑戰性任務中分配更多計算資源,進一步擴展編碼能力。

在架構方面,GLM-5.2 採用 IndexShare 降低 DSA 索引器的計算成本。具體地,每 4 個 Transformer 層共享一個輕量級索引器,放置在四層中的第一層,topk 索引被四層共用,減少了 3/4 層的索引器點積和 topk 運算。GLM-5.2 從 128K 序列長度的中訓練階段開始使用 IndexShare 訓練,在長上下文基準上以更少計算量超越 GLM-5.1。

GLM-5.2 改進了 MTP 層用於推測解碼,目標是最小化 MTP 層作為草稿模型的成本並最大化接受率。在 MTP 層上也應用了 IndexShare,並在多步 MTP 中複用第一大步的 KV 緩存和索引,結合拒絕採樣和端到端 TV 損失訓練,使接受長度提升 20%。

針對 1M 上下文的高效服務,GLM-5.2 沿三個方向優化推理引擎:基於 LayerSplit 的細粒度內存管理和並行化策略增加 KV 緩存容量;優化隨上下文長度增長的核函數,並協調緩存傳輸流水線;優化 CPU 端緩存管理、請求調度和運行時執行路徑,減少 GPU 執行流水線中的氣泡。隨着上下文長度增長,GLM-5.2 的吞吐量優勢越來越大,展現出更強的可擴展性。

在後訓練方面,GLM-5.2 的智能體強化學習(RL)涉及更大規模的任務、更多領域和更復雜的執行模式。slime 框架作為從訓練到大規模推理部署的集成基礎設施層,支持白盒 rollout、黑盒 rollout、緊湊軌跡和子代理工作流,使同一系統能擴展到更大更復雜的 RL 和 OPD 訓練工作負載。在 GLM-5.2 的後訓練過程中,使用 slime 框架進行並行 OPD 訓練,高效地將十多個專家模型合併到最終模型中,整個過程約需兩天。

RL 訓練中引入反黑客模塊,防止獎勵黑客行為,例如代理讀取受保護評估工件、從參考或上游提交複製答案內容等。該檢測機制可識別並抑制此類捷徑,確保訓練信號反映真實任務解決能力。