2026-06-19站内改写2 分鐘閱讀更新: 2026-06-19

GLM-5.2 – 如何在本地運行

GLM-5.2 是 Z.ai 推出的新一代開源模型，擁有 744B 總參數和 40B 活躍參數，支持 1M 上下文窗口，在長程編碼、推理和智能體任務上達到 SOTA 水平。本文詳細介紹如何通過 Unsloth Dynamic GGUF 量化在本地運行該模型，包括硬件要求、推薦設置、量化分析以及 Unsloth Studio 和 llama.cpp 的使用指南。

來源Hacker News AI作者: tosh

GLM-5.2 是 Z.ai 最新發布的開源模型，憑藉 744B 總參數、40B 活躍參數以及 1M 的上下文窗口，在長程編碼、推理和智能體任務上達到了業界領先水平。據基準測試，其性能可與 Claude 4.8 Opus、GPT-5.5 和 Gemini 3.1 Pro 相媲美，是目前最強的開源模型之一。

要在本地運行 GLM-5.2，最實用的方法是使用 Unsloth Dynamic GGUF 量化。原始模型需要 1.51TB 磁盤空間，而 2-bit 動態量化（UD-IQ2_M）僅需 239GB，縮小了 84%；1-bit 量化則進一步降至 217GB（縮減 86%）。這種量化技術通過將關鍵層提升至 8 或 16 位來保持精度，而 KLD 分析表明，即使是 1-bit 量化也能保留約 76% 的 top-1% 準確率。

硬件要求

運行量化模型需要足夠的總內存（RAM + VRAM）。對於 2-bit 量化，建議至少 245GB 內存；1-bit 需 223GB；8-bit 則需 810GB。在配備 256GB 統一內存的 Mac 上，2-bit 模型可以直接運行，並通過 MoE 卸載適配單 GPU 環境。

使用指南

GLM-5.2 提供三種思考模式：非思考模式、高思考（High）和最大思考（Max）。對於複雜任務，推薦使用最大思考。在 Unsloth Studio 中，可以通過界面輕鬆切換。推薦參數：温度 1.0，top_p 0.95（默認）或 1.0（SWE-Bench 場景）。

在 Unsloth Studio 中運行

Unsloth Studio 是一個開源 Web UI，支持自動卸載和 GPU 檢測。安裝後，在 Studio 的聊天標籤頁搜索 GLM-5.2，選擇合適的量化版本下載即可運行。它支持工具調用、代碼執行和自動參數調優。

在 llama.cpp 中運行

首先獲取最新版 llama.cpp，然後下載 GGUF 文件。推薦使用手動下載方式加速，通過 Hugging Face Hub 獲取。運行命令示例：

./llama-cli -m GLM-5.2-UD-IQ2_M-00001-of-00006.gguf --temp 1.0 --top-p 0.95

對於長上下文任務，可以使用 KV 緩存量化（如 q4_0）將上下文長度擴展約 3.5 倍。

基準測試表現

GLM-5.2 在多項基準中表現突出：AIME 2026 達 99.2%，SWE-bench Pro 62.1%，HLE（使用工具）54.7%。與 Claude Opus 4.8、GPT-5.5 等模型相比，在推理和編碼任務上極具競爭力。

更多詳情請參閲官方文檔，或訪問 Unsloth 教程頁面。