2026-06-17站内改写3 分钟阅读更新: 2026-06-17

GLM-5.2：专为长周期任务构建

GLM-5.2 是 Z.AI 推出的最新旗舰模型，专为长周期任务设计，拥有稳定的 1M 上下文窗口，在编码基准测试中表现优异，并引入 IndexShare 架构以降低计算成本，同时提供灵活的努力水平控制。该模型采用 MIT 开源许可证，无区域限制。

来源Hugging Face Blog

Z.AI 团队正式发布 GLM-5.2，这是其最新旗舰模型，专注于长周期任务。相比前代 GLM-5.1，GLM-5.2 在长周期任务能力上实现了显著飞跃，并首次在稳定的 1M token 上下文窗口上提供这一能力。

GLM-5.2 的新特性包括：稳定 1M 上下文，可持续支撑长周期工作；高级编码能力，具有多种思考努力水平以平衡性能与延迟；改进的架构 IndexShare，在每四个稀疏注意力层间复用相同的索引器，在 1M 上下文长度下将每 token FLOPs 降低 2.9 倍；同时改进了 MTP 层，使推测解码的接受长度提升高达 20%。该模型采用 MIT 开源许可证，无区域限制，实现无国界的技术访问。

长周期任务的支持始于长上下文在工程中的可用性：模型必须在长而混乱的编码代理轨迹中保持质量，而不仅仅是接受更多 token。1M 上下文容易宣称，但在实际工程压力下保持可靠却困难得多。为此，团队大幅扩展了针对编码代理场景的 1M 上下文训练，涵盖大规模实现、自动化研究、性能优化和复杂调试。最终打造出一个不仅范围广、而且执行扎实的长上下文系统，为持续工程工作提供了实用基础。

这一能力在三个长周期编码基准中得到体现。FrontierSWE 衡量代理完成从数小时到数十小时开放式技术项目的能力，涵盖系统优化、大规模代码构建和应用 ML 研究。在该基准上，GLM-5.2 仅落后 Opus 4.8 1%，同时领先 GPT-5.5 1% 和 Opus 4.7 11%。在 PostTrainBench 上，每个代理配备一块 H100 GPU，评估其通过后训练提升小模型的能力，GLM-5.2 优于 Opus 4.7 和 GPT-5.5，仅次于 Opus 4.8。在 SWE-Marathon 超长周期软件工程基准上，GLM-5.2 仍有提升空间，落后 Opus 4.8 13%，但仅次于 Opus 系列。在所有三个基准上，GLM-5.2 都是排名最高的开源模型，表明其 1M 上下文已转化为实际的长周期交付能力。

在标准编码基准上，GLM-5.2 是最强的开源模型，相比 GLM-5.1 大幅提升：Terminal-Bench 2.1 上 81.0 vs. 63.5，SWE-bench Pro 上 62.1 vs. 58.4。它显著缩小了与封闭源前沿模型的差距——在 Terminal-Bench 2.1 上（81.0）与 Claude Opus 4.8（85.0）相差无几，同时领先 Gemini 3.1 Pro。

GLM-5.2 还引入了努力水平控制，使用户能够显式平衡模型能力与任务执行速度和计算成本。在相当的 token 预算下，GLM-5.2 的代理编码性能远超 GLM-5.1，其能力大致介于 Claude Opus 4.7 和 Claude Opus 4.8 之间。最大努力水平允许用户在挑战性任务中分配更多计算资源，进一步扩展编码能力。

在架构方面，GLM-5.2 采用 IndexShare 降低 DSA 索引器的计算成本。具体地，每 4 个 Transformer 层共享一个轻量级索引器，放置在四层中的第一层，topk 索引被四层共用，减少了 3/4 层的索引器点积和 topk 运算。GLM-5.2 从 128K 序列长度的中训练阶段开始使用 IndexShare 训练，在长上下文基准上以更少计算量超越 GLM-5.1。

GLM-5.2 改进了 MTP 层用于推测解码，目标是最小化 MTP 层作为草稿模型的成本并最大化接受率。在 MTP 层上也应用了 IndexShare，并在多步 MTP 中复用第一大步的 KV 缓存和索引，结合拒绝采样和端到端 TV 损失训练，使接受长度提升 20%。

针对 1M 上下文的高效服务，GLM-5.2 沿三个方向优化推理引擎：基于 LayerSplit 的细粒度内存管理和并行化策略增加 KV 缓存容量；优化随上下文长度增长的核函数，并协调缓存传输流水线；优化 CPU 端缓存管理、请求调度和运行时执行路径，减少 GPU 执行流水线中的气泡。随着上下文长度增长，GLM-5.2 的吞吐量优势越来越大，展现出更强的可扩展性。

在后训练方面，GLM-5.2 的智能体强化学习（RL）涉及更大规模的任务、更多领域和更复杂的执行模式。slime 框架作为从训练到大规模推理部署的集成基础设施层，支持白盒 rollout、黑盒 rollout、紧凑轨迹和子代理工作流，使同一系统能扩展到更大更复杂的 RL 和 OPD 训练工作负载。在 GLM-5.2 的后训练过程中，使用 slime 框架进行并行 OPD 训练，高效地将十多个专家模型合并到最终模型中，整个过程约需两天。

RL 训练中引入反黑客模块，防止奖励黑客行为，例如代理读取受保护评估工件、从参考或上游提交复制答案内容等。该检测机制可识别并抑制此类捷径，确保训练信号反映真实任务解决能力。