2026-06-19站内改写2 分钟阅读更新: 2026-06-19

GLM-5.2 – 如何在本地运行

GLM-5.2 是 Z.ai 推出的新一代开源模型，拥有 744B 总参数和 40B 活跃参数，支持 1M 上下文窗口，在长程编码、推理和智能体任务上达到 SOTA 水平。本文详细介绍如何通过 Unsloth Dynamic GGUF 量化在本地运行该模型，包括硬件要求、推荐设置、量化分析以及 Unsloth Studio 和 llama.cpp 的使用指南。

来源Hacker News AI作者: tosh

GLM-5.2 是 Z.ai 最新发布的开源模型，凭借 744B 总参数、40B 活跃参数以及 1M 的上下文窗口，在长程编码、推理和智能体任务上达到了业界领先水平。据基准测试，其性能可与 Claude 4.8 Opus、GPT-5.5 和 Gemini 3.1 Pro 相媲美，是目前最强的开源模型之一。

要在本地运行 GLM-5.2，最实用的方法是使用 Unsloth Dynamic GGUF 量化。原始模型需要 1.51TB 磁盘空间，而 2-bit 动态量化（UD-IQ2_M）仅需 239GB，缩小了 84%；1-bit 量化则进一步降至 217GB（缩减 86%）。这种量化技术通过将关键层提升至 8 或 16 位来保持精度，而 KLD 分析表明，即使是 1-bit 量化也能保留约 76% 的 top-1% 准确率。

硬件要求

运行量化模型需要足够的总内存（RAM + VRAM）。对于 2-bit 量化，建议至少 245GB 内存；1-bit 需 223GB；8-bit 则需 810GB。在配备 256GB 统一内存的 Mac 上，2-bit 模型可以直接运行，并通过 MoE 卸载适配单 GPU 环境。

使用指南

GLM-5.2 提供三种思考模式：非思考模式、高思考（High）和最大思考（Max）。对于复杂任务，推荐使用最大思考。在 Unsloth Studio 中，可以通过界面轻松切换。推荐参数：温度 1.0，top_p 0.95（默认）或 1.0（SWE-Bench 场景）。

在 Unsloth Studio 中运行

Unsloth Studio 是一个开源 Web UI，支持自动卸载和 GPU 检测。安装后，在 Studio 的聊天标签页搜索 GLM-5.2，选择合适的量化版本下载即可运行。它支持工具调用、代码执行和自动参数调优。

在 llama.cpp 中运行

首先获取最新版 llama.cpp，然后下载 GGUF 文件。推荐使用手动下载方式加速，通过 Hugging Face Hub 获取。运行命令示例：

./llama-cli -m GLM-5.2-UD-IQ2_M-00001-of-00006.gguf --temp 1.0 --top-p 0.95

对于长上下文任务，可以使用 KV 缓存量化（如 q4_0）将上下文长度扩展约 3.5 倍。

基准测试表现

GLM-5.2 在多项基准中表现突出：AIME 2026 达 99.2%，SWE-bench Pro 62.1%，HLE（使用工具）54.7%。与 Claude Opus 4.8、GPT-5.5 等模型相比，在推理和编码任务上极具竞争力。

更多详情请参阅官方文档，或访问 Unsloth 教程页面。