AI News HubLIVE
站内改写2 分で読了

GLM-5.2 – ローカルでの実行方法

GLM-5.2 は Z.ai の新しいオープンモデルで、744B パラメータ、1M コンテキストウィンドウを備え、コーディング、推論、エージェントタスクで SOTA を達成しています。このガイドでは、Unsloth Dynamic GGUF を使用してローカルで実行する方法を、ハードウェア要件、量子化、Unsloth Studio および llama.cpp の手順を含めて説明します。

ソースHacker News AI著者: tosh

GLM-5.2 は Z.ai がリリースした最新のオープンモデルで、744B の総パラメータ、40B のアクティブパラメータ、および 1M のコンテキストウィンドウを備え、長期的なコーディング、推論、エージェントタスクで最先端の性能を発揮します。ベンチマークでは、Claude 4.8 Opus、GPT-5.5、Gemini 3.1 Pro と同等の結果を示しており、現時点で最も強力なオープンモデルの一つです。

ローカルで実行するには、Unsloth Dynamic GGUF 量子化が最も実用的です。元のモデルは 1.51TB のディスク容量を必要としますが、2-bit 動的量子化(UD-IQ2_M)では 239GB(84%削減)、1-bit では 217GB(86%削減)に縮小されます。この量子化手法は重要なレイヤーを 8 または 16 ビットにアップキャストすることで精度を維持し、KLD 分析では 1-bit でも top-1% 精度の約 76% を保持します。

ハードウェア要件

量子化モデルを実行するには十分なメモリ(RAM + VRAM)が必要です。2-bit 量子化には少なくとも 245GB、1-bit には 223GB、8-bit には 810GB のメモリが推奨されます。256GB ユニファイドメモリの Mac では 2-bit モデルを直接実行でき、MoE オフロードによりシングル GPU 環境にも対応します。

使用方法

GLM-5.2 には3つの思考モードがあります:非思考、高思考(High)、最大思考(Max)。複雑なタスクには最大思考を推奨します。Unsloth Studio では UI から簡単に切り替えられます。推奨パラメータは温度 1.0、top_p 0.95(デフォルト)または 1.0(SWE-Bench 用)です。

Unsloth Studio での実行

Unsloth Studio はオープンソースの Web UI で、自動オフロードと GPU 検出をサポートします。インストール後、Studio のチャットタブで GLM-5.2 を検索し、適切な量子化バージョンをダウンロードして実行します。ツール呼び出し、コード実行、自動パラメータチューニングが可能です。

llama.cpp での実行

最新の llama.cpp を入手し、GGUF ファイルをダウンロードします。手動ダウンロードが高速です。実行コマンド例:

./llama-cli -m GLM-5.2-UD-IQ2_M-00001-of-00006.gguf --temp 1.0 --top-p 0.95

長文コンテキストには KV キャッシュ量子化(例:q4_0)を使用すると、コンテキスト長を約 3.5 倍に拡張できます。

ベンチマーク結果

GLM-5.2 は多くのベンチマークで優れた結果を示しています:AIME 2026 で 99.2%、SWE-bench Pro で 62.1%、HLE(ツール使用)で 54.7%。Claude Opus 4.8 や GPT-5.5 と比較しても、推論とコーディングタスクで高い競争力を持っています。

詳細については公式ドキュメント、または Unsloth のチュートリアルページをご参照ください。