2026-06-19站内改写2 分鐘閱讀更新: 2026-06-19

GLM-5.2 – 如何在本地執行

GLM-5.2 是 Z.ai 推出的新一代開源模型，擁有 744B 總引數和 40B 活躍引數，支援 1M 上下文視窗，在長程編碼、推理和智慧體任務上達到 SOTA 水平。本文詳細介紹如何透過 Unsloth Dynamic GGUF 量化在本地執行該模型，包括硬體要求、推薦設定、量化分析以及 Unsloth Studio 和 llama.cpp 的使用指南。

來源Hacker News AI作者: tosh

GLM-5.2 是 Z.ai 最新發布的開源模型，憑藉 744B 總引數、40B 活躍引數以及 1M 的上下文視窗，在長程編碼、推理和智慧體任務上達到了業界領先水平。據基準測試，其效能可與 Claude 4.8 Opus、GPT-5.5 和 Gemini 3.1 Pro 相媲美，是目前最強的開源模型之一。

要在本地執行 GLM-5.2，最實用的方法是使用 Unsloth Dynamic GGUF 量化。原始模型需要 1.51TB 磁碟空間，而 2-bit 動態量化（UD-IQ2_M）僅需 239GB，縮小了 84%；1-bit 量化則進一步降至 217GB（縮減 86%）。這種量化技術透過將關鍵層提升至 8 或 16 位來保持精度，而 KLD 分析表明，即使是 1-bit 量化也能保留約 76% 的 top-1% 準確率。

硬體要求

執行量化模型需要足夠的總記憶體（RAM + VRAM）。對於 2-bit 量化，建議至少 245GB 記憶體；1-bit 需 223GB；8-bit 則需 810GB。在配備 256GB 統一記憶體的 Mac 上，2-bit 模型可以直接執行，並透過 MoE 解除安裝適配單 GPU 環境。

使用指南

GLM-5.2 提供三種思考模式：非思考模式、高思考（High）和最大思考（Max）。對於複雜任務，推薦使用最大思考。在 Unsloth Studio 中，可以透過介面輕鬆切換。推薦引數：溫度 1.0，top_p 0.95（預設）或 1.0（SWE-Bench 場景）。

在 Unsloth Studio 中執行

Unsloth Studio 是一個開源 Web UI，支援自動解除安裝和 GPU 檢測。安裝後，在 Studio 的聊天標籤頁搜尋 GLM-5.2，選擇合適的量化版本下載即可執行。它支援工具呼叫、程式碼執行和自動引數調優。

在 llama.cpp 中執行

首先獲取最新版 llama.cpp，然後下載 GGUF 檔案。推薦使用手動下載方式加速，透過 Hugging Face Hub 獲取。執行命令示例：

./llama-cli -m GLM-5.2-UD-IQ2_M-00001-of-00006.gguf --temp 1.0 --top-p 0.95

對於長上下文任務，可以使用 KV 快取量化（如 q4_0）將上下文長度擴充套件約 3.5 倍。

基準測試表現

GLM-5.2 在多項基準中表現突出：AIME 2026 達 99.2%，SWE-bench Pro 62.1%，HLE（使用工具）54.7%。與 Claude Opus 4.8、GPT-5.5 等模型相比，在推理和編碼任務上極具競爭力。

更多詳情請參閱官方文件，或訪問 Unsloth 教程頁面。