GLM-5.2 – 如何在本地執行
GLM-5.2 是 Z.ai 推出的新一代開源模型,擁有 744B 總引數和 40B 活躍引數,支援 1M 上下文視窗,在長程編碼、推理和智慧體任務上達到 SOTA 水平。本文詳細介紹如何透過 Unsloth Dynamic GGUF 量化在本地執行該模型,包括硬體要求、推薦設定、量化分析以及 Unsloth Studio 和 llama.cpp 的使用指南。
GLM-5.2 是 Z.ai 最新發布的開源模型,憑藉 744B 總引數、40B 活躍引數以及 1M 的上下文視窗,在長程編碼、推理和智慧體任務上達到了業界領先水平。據基準測試,其效能可與 Claude 4.8 Opus、GPT-5.5 和 Gemini 3.1 Pro 相媲美,是目前最強的開源模型之一。
要在本地執行 GLM-5.2,最實用的方法是使用 Unsloth Dynamic GGUF 量化。原始模型需要 1.51TB 磁碟空間,而 2-bit 動態量化(UD-IQ2_M)僅需 239GB,縮小了 84%;1-bit 量化則進一步降至 217GB(縮減 86%)。這種量化技術透過將關鍵層提升至 8 或 16 位來保持精度,而 KLD 分析表明,即使是 1-bit 量化也能保留約 76% 的 top-1% 準確率。
硬體要求
執行量化模型需要足夠的總記憶體(RAM + VRAM)。對於 2-bit 量化,建議至少 245GB 記憶體;1-bit 需 223GB;8-bit 則需 810GB。在配備 256GB 統一記憶體的 Mac 上,2-bit 模型可以直接執行,並透過 MoE 解除安裝適配單 GPU 環境。
使用指南
GLM-5.2 提供三種思考模式:非思考模式、高思考(High)和最大思考(Max)。對於複雜任務,推薦使用最大思考。在 Unsloth Studio 中,可以透過介面輕鬆切換。推薦引數:溫度 1.0,top_p 0.95(預設)或 1.0(SWE-Bench 場景)。
在 Unsloth Studio 中執行
Unsloth Studio 是一個開源 Web UI,支援自動解除安裝和 GPU 檢測。安裝後,在 Studio 的聊天標籤頁搜尋 GLM-5.2,選擇合適的量化版本下載即可執行。它支援工具呼叫、程式碼執行和自動引數調優。
在 llama.cpp 中執行
首先獲取最新版 llama.cpp,然後下載 GGUF 檔案。推薦使用手動下載方式加速,透過 Hugging Face Hub 獲取。執行命令示例:
./llama-cli -m GLM-5.2-UD-IQ2_M-00001-of-00006.gguf --temp 1.0 --top-p 0.95對於長上下文任務,可以使用 KV 快取量化(如 q4_0)將上下文長度擴充套件約 3.5 倍。
基準測試表現
GLM-5.2 在多項基準中表現突出:AIME 2026 達 99.2%,SWE-bench Pro 62.1%,HLE(使用工具)54.7%。與 Claude Opus 4.8、GPT-5.5 等模型相比,在推理和編碼任務上極具競爭力。
更多詳情請參閱官方文件,或訪問 Unsloth 教程頁面。