2026-06-17站内改写3 分で読了更新: 2026-06-17

GLM-5.2：長期間タスク向けに構築

Z.AI が最新フラッグシップモデル GLM-5.2 を発表。長期間タスクに特化し、安定した 1M トークンコンテキストを提供。コーディングベンチマークで優れた性能を発揮し、IndexShare アーキテクチャで計算コストを削減。努力レベル制御により柔軟性を実現。MIT ライセンスで公開。

ソースHugging Face Blog

記事インテリジェンス

エンジニア上級

要点

GLM-5.2 は 1M トークンの安定したコンテキストを提供し、長期間のエンジニアリングタスクをサポート。
FrontierSWE、PostTrainBench などの長期間コーディングベンチマークでオープンソースモデル中最上位。
IndexShare アーキテクチャを導入し、4層ごとにインデクサを共有することで FLOPs を 2.9 倍削減。
努力レベル制御により、性能とレイテンシのバランスを調整可能。

重要な理由

このニュースが重要なのは、GLM-5.2 は 1M トークンの安定したコンテキストを提供し、長期間のエンジニアリングタスクをサポートためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

Z.AI チームは、長期間タスクに特化した最新フラッグシップモデル GLM-5.2 を発表しました。前世代の GLM-5.1 と比較して、長期間タスクの能力が大幅に向上し、初めて安定した 1M トークンコンテキストを実現しました。

GLM-5.2 の新機能には、安定した 1M コンテキスト、複数の思考努力レベルを持つ高度なコーディング能力、IndexShare アーキテクチャによる計算効率の向上、そして MLP 層の改善による投機的復号の受け入れ長の最大 20% 向上が含まれます。モデルは MIT オープンソースライセンスで公開され、地域制限なく誰でも利用できます。

長期間タスクをサポートするには、長いコンテキストをエンジニアリングで実用的にする必要があります。モデルは長く複雑なコーディングエージェントの軌跡にわたって品質を維持しなければなりません。Z.AI は、コーディングエージェントシナリオ向けに 1M コンテキストトレーニングを大幅に拡大し、大規模実装、自動研究、パフォーマンス最適化、複雑なデバッグをカバーしました。その結果、範囲が広いだけでなく実行も堅牢な長コンテキストシステムが生まれ、持続的なエンジニアリング作業の実用的基盤を提供します。

この能力は、3 つの長期間コーディングベンチマークで実証されています。FrontierSWE では、エージェントが数時間から数十時間のオープンエンドな技術プロジェクトを完了できるかを測定します。GLM-5.2 は Opus 4.8 にわずか 1% 差で迫り、GPT-5.5 を 1%、Opus 4.7 を 11% 上回ります。PostTrainBench では、各エージェントに H100 GPU が与えられ、後処理による小規模モデルの改善度合いが評価されます。GLM-5.2 は Opus 4.7 と GPT-5.5 を上回り、Opus 4.8 に次ぐ 2 位です。SWE-Marathon では、コンパイラ構築、カーネル最適化、プロダクション級サービス開発などの超長期間ソフトウェアエンジニアリングタスクを扱い、GLM-5.2 は Opus 4.8 に 13% 劣るものの、Opus シリーズに次ぐオープンソースモデル中最上位です。

標準的なコーディングベンチマークでは、GLM-5.2 は最強のオープンソースモデルです。Terminal-Bench 2.1 で 81.0（対 GLM-5.1 の 63.5）、SWE-bench Pro で 62.1（対 58.4）と大幅に改善しました。Terminal-Bench 2.1 では Claude Opus 4.8（85.0）に迫り、Gemini 3.1 Pro を上回っています。

GLM-5.2 は努力レベル制御も導入しており、ユーザーはモデルの能力と実行速度・計算コストを明示的に調整できます。同程度のトークン予算で、GLM-5.2 のエージェントコーディング性能は GLM-5.1 を大幅に上回り、Claude Opus 4.7 と 4.8 の中間に位置します。最大努力レベルでは、困難なタスクで追加計算を割り当て、さらに性能を引き出すことができます。

アーキテクチャ面では、GLM-5.2 は IndexShare を採用し、DSA のインデクサ計算コストを削減しています。4 つの Transformer 層ごとに軽量インデクサを共有し、3/4 の層で積和演算と topk 演算を省略します。128K シーケンス長から IndexShare を使用したトレーニングにより、長コンテキストベンチマークで少ない計算量で GLM-5.1 を上回ります。

MTP 層も改善され、投機的復号のドラフトモデルとしてのコスト最小化と受け入れ率最大化を両立。IndexShare と KV 共有を適用し、リジェクションサンプリングとエンドツーエンド TV 損失を導入した結果、受け入れ長が 20% 向上しました。

1M コンテキストの効率的なサービス提供には、推論エンジンの最適化が不可欠です。GLM-5.2 は LayerSplit に基づくきめ細かいメモリ管理と並列化戦略、コンテキスト長に応じてコストが増大するカーネルの最適化、CPU 側のキャッシュ管理とリクエストスケジューリングの改善により、長コンテキスト時のスループットを大幅に向上させています。

後トレーニングでは、GLM-5.2 のエージェント強化学習（RL）はより大規模かつ複雑なタスクを扱います。slime フレームワークはトレーニングから大規模推論ロールアウトまでの統合インフラを提供し、ホワイトボックス/ブラックボックスロールアウト、コンパクト軌跡、サブエージェントワークフローなど複数のモードをサポート。GLM-5.2 の後トレーニングでは、slime を使用して並列 OPD トレーニングを実行し、10 以上のエキスパートモデルを効率的に統合しました。全体のトレーニングは約 2 日で完了しました。

さらに、RL トレーニングにはアンチハッキングモジュールが導入され、報酬ハッキング（保護された評価アーティファクトの読み取りや回答のコピーなど）を防止します。これにより、訓練信号が真のタスク解決能力を反映することが保証されます。