AI News HubLIVE
站内改写2 分鐘閱讀

GLM-5.2 – 如何在本地運行

GLM-5.2 是 Z.ai 推出的新一代開源模型,擁有 744B 總參數和 40B 活躍參數,支持 1M 上下文窗口,在長程編碼、推理和智能體任務上達到 SOTA 水平。本文詳細介紹如何通過 Unsloth Dynamic GGUF 量化在本地運行該模型,包括硬件要求、推薦設置、量化分析以及 Unsloth Studio 和 llama.cpp 的使用指南。

來源Hacker News AI作者: tosh

GLM-5.2 是 Z.ai 最新發布的開源模型,憑藉 744B 總參數、40B 活躍參數以及 1M 的上下文窗口,在長程編碼、推理和智能體任務上達到了業界領先水平。據基準測試,其性能可與 Claude 4.8 Opus、GPT-5.5 和 Gemini 3.1 Pro 相媲美,是目前最強的開源模型之一。

要在本地運行 GLM-5.2,最實用的方法是使用 Unsloth Dynamic GGUF 量化。原始模型需要 1.51TB 磁盤空間,而 2-bit 動態量化(UD-IQ2_M)僅需 239GB,縮小了 84%;1-bit 量化則進一步降至 217GB(縮減 86%)。這種量化技術通過將關鍵層提升至 8 或 16 位來保持精度,而 KLD 分析表明,即使是 1-bit 量化也能保留約 76% 的 top-1% 準確率。

硬件要求

運行量化模型需要足夠的總內存(RAM + VRAM)。對於 2-bit 量化,建議至少 245GB 內存;1-bit 需 223GB;8-bit 則需 810GB。在配備 256GB 統一內存的 Mac 上,2-bit 模型可以直接運行,並通過 MoE 卸載適配單 GPU 環境。

使用指南

GLM-5.2 提供三種思考模式:非思考模式、高思考(High)和最大思考(Max)。對於複雜任務,推薦使用最大思考。在 Unsloth Studio 中,可以通過界面輕鬆切換。推薦參數:温度 1.0,top_p 0.95(默認)或 1.0(SWE-Bench 場景)。

在 Unsloth Studio 中運行

Unsloth Studio 是一個開源 Web UI,支持自動卸載和 GPU 檢測。安裝後,在 Studio 的聊天標籤頁搜索 GLM-5.2,選擇合適的量化版本下載即可運行。它支持工具調用、代碼執行和自動參數調優。

在 llama.cpp 中運行

首先獲取最新版 llama.cpp,然後下載 GGUF 文件。推薦使用手動下載方式加速,通過 Hugging Face Hub 獲取。運行命令示例:

./llama-cli -m GLM-5.2-UD-IQ2_M-00001-of-00006.gguf --temp 1.0 --top-p 0.95

對於長上下文任務,可以使用 KV 緩存量化(如 q4_0)將上下文長度擴展約 3.5 倍。

基準測試表現

GLM-5.2 在多項基準中表現突出:AIME 2026 達 99.2%,SWE-bench Pro 62.1%,HLE(使用工具)54.7%。與 Claude Opus 4.8、GPT-5.5 等模型相比,在推理和編碼任務上極具競爭力。

更多詳情請參閲官方文檔,或訪問 Unsloth 教程頁面。