AI News HubLIVE
站内改写3 分钟阅读

GLM-5.2:专为长周期任务构建

GLM-5.2 是 Z.AI 推出的最新旗舰模型,专为长周期任务设计,拥有稳定的 1M 上下文窗口,在编码基准测试中表现优异,并引入 IndexShare 架构以降低计算成本,同时提供灵活的努力水平控制。该模型采用 MIT 开源许可证,无区域限制。

Z.AI 团队正式发布 GLM-5.2,这是其最新旗舰模型,专注于长周期任务。相比前代 GLM-5.1,GLM-5.2 在长周期任务能力上实现了显著飞跃,并首次在稳定的 1M token 上下文窗口上提供这一能力。

GLM-5.2 的新特性包括:稳定 1M 上下文,可持续支撑长周期工作;高级编码能力,具有多种思考努力水平以平衡性能与延迟;改进的架构 IndexShare,在每四个稀疏注意力层间复用相同的索引器,在 1M 上下文长度下将每 token FLOPs 降低 2.9 倍;同时改进了 MTP 层,使推测解码的接受长度提升高达 20%。该模型采用 MIT 开源许可证,无区域限制,实现无国界的技术访问。

长周期任务的支持始于长上下文在工程中的可用性:模型必须在长而混乱的编码代理轨迹中保持质量,而不仅仅是接受更多 token。1M 上下文容易宣称,但在实际工程压力下保持可靠却困难得多。为此,团队大幅扩展了针对编码代理场景的 1M 上下文训练,涵盖大规模实现、自动化研究、性能优化和复杂调试。最终打造出一个不仅范围广、而且执行扎实的长上下文系统,为持续工程工作提供了实用基础。

这一能力在三个长周期编码基准中得到体现。FrontierSWE 衡量代理完成从数小时到数十小时开放式技术项目的能力,涵盖系统优化、大规模代码构建和应用 ML 研究。在该基准上,GLM-5.2 仅落后 Opus 4.8 1%,同时领先 GPT-5.5 1% 和 Opus 4.7 11%。在 PostTrainBench 上,每个代理配备一块 H100 GPU,评估其通过后训练提升小模型的能力,GLM-5.2 优于 Opus 4.7 和 GPT-5.5,仅次于 Opus 4.8。在 SWE-Marathon 超长周期软件工程基准上,GLM-5.2 仍有提升空间,落后 Opus 4.8 13%,但仅次于 Opus 系列。在所有三个基准上,GLM-5.2 都是排名最高的开源模型,表明其 1M 上下文已转化为实际的长周期交付能力。

在标准编码基准上,GLM-5.2 是最强的开源模型,相比 GLM-5.1 大幅提升:Terminal-Bench 2.1 上 81.0 vs. 63.5,SWE-bench Pro 上 62.1 vs. 58.4。它显著缩小了与封闭源前沿模型的差距——在 Terminal-Bench 2.1 上(81.0)与 Claude Opus 4.8(85.0)相差无几,同时领先 Gemini 3.1 Pro。

GLM-5.2 还引入了努力水平控制,使用户能够显式平衡模型能力与任务执行速度和计算成本。在相当的 token 预算下,GLM-5.2 的代理编码性能远超 GLM-5.1,其能力大致介于 Claude Opus 4.7 和 Claude Opus 4.8 之间。最大努力水平允许用户在挑战性任务中分配更多计算资源,进一步扩展编码能力。

在架构方面,GLM-5.2 采用 IndexShare 降低 DSA 索引器的计算成本。具体地,每 4 个 Transformer 层共享一个轻量级索引器,放置在四层中的第一层,topk 索引被四层共用,减少了 3/4 层的索引器点积和 topk 运算。GLM-5.2 从 128K 序列长度的中训练阶段开始使用 IndexShare 训练,在长上下文基准上以更少计算量超越 GLM-5.1。

GLM-5.2 改进了 MTP 层用于推测解码,目标是最小化 MTP 层作为草稿模型的成本并最大化接受率。在 MTP 层上也应用了 IndexShare,并在多步 MTP 中复用第一大步的 KV 缓存和索引,结合拒绝采样和端到端 TV 损失训练,使接受长度提升 20%。

针对 1M 上下文的高效服务,GLM-5.2 沿三个方向优化推理引擎:基于 LayerSplit 的细粒度内存管理和并行化策略增加 KV 缓存容量;优化随上下文长度增长的核函数,并协调缓存传输流水线;优化 CPU 端缓存管理、请求调度和运行时执行路径,减少 GPU 执行流水线中的气泡。随着上下文长度增长,GLM-5.2 的吞吐量优势越来越大,展现出更强的可扩展性。

在后训练方面,GLM-5.2 的智能体强化学习(RL)涉及更大规模的任务、更多领域和更复杂的执行模式。slime 框架作为从训练到大规模推理部署的集成基础设施层,支持白盒 rollout、黑盒 rollout、紧凑轨迹和子代理工作流,使同一系统能扩展到更大更复杂的 RL 和 OPD 训练工作负载。在 GLM-5.2 的后训练过程中,使用 slime 框架进行并行 OPD 训练,高效地将十多个专家模型合并到最终模型中,整个过程约需两天。

RL 训练中引入反黑客模块,防止奖励黑客行为,例如代理读取受保护评估工件、从参考或上游提交复制答案内容等。该检测机制可识别并抑制此类捷径,确保训练信号反映真实任务解决能力。