GLM 5.2 が Fireworks 推論でデイゼロ提供開始
Z.ai(旧称 Zhipu)の最新オープンソースモデル GLM 5.2 が、Fireworks 推論プラットフォームで利用可能になりました。コーディングベンチマークでリードし、100万トークンのコンテキストウィンドウを備え、MITライセンスで提供されます。Fireworks は独立して性能を検証し、ルーティングではなくインフラストラクチャを重視しています。
Z.ai(旧称 Zhipu)は、2026年6月16日に最新フラッグシップモデル GLM 5.2 をリリースし、即座に Fireworks 推論プラットフォームで提供を開始しました。中国のAI「六虎」の一つである Z.ai は、2026年初頭に香港に上場し、世界初の大規模モデル株となりました。GLM 5.2 はコーディングに特化したモデルで、長時間のエージェントタスク向けに設計されており、100万トークンのコンテキストウィンドウが特徴です。
リリースに際して、Z.ai は詳細なベンチマーク結果を公開し、GLM 5.2 がオープンソースモデルとして最高のコーディング性能を持ち、クローズドモデルとの差を大幅に縮めていると主張しています。Fireworks は自社の GPU と推論エンジンを使用して独立した検証を実施し、GLM 5.2 が GPQA-Diamond で91.4%(181/198、高推論)のスコアを達成したことを確認しました。これは Z.ai の報告値91.2%と一致しています。この独立検証により、モデル性能が特定のインフラに依存しないことが示されました。
Fireworks は、自社プラットフォームがルーターではなく、自社インフラ上でモデルを実行することを強調しています。ユーザーのリクエストが他社のエンドポイントに転送されることはなく、完全に制御されたサービングパス、ゼロデータ保持ポリシー、稼働時間 SLA が保証されます。このアーキテクチャは、高いセキュリティと信頼性を求めるエンタープライズユーザーにとって特に重要です。
GLM 5.2 は長時間のエージェントワーク向けに設計されています。AIの最前線では、開発者は一度に一つのタスクを見守るのではなく、複数のプロジェクトを同時に実行しており、エージェントが無監視で作業できる時間がスループットを左右します。GLM 5.2 の100万トークンコンテキストウィンドウにより、エージェントは数時間から一日中、介入なしに作業を続けられます。しかし、このような長いコンテキストを信頼性高く維持することは工学的に困難です。KVキャッシュ容量、カーネルオーバーヘッド、CPU側スケジューリングなどのインフラボトルネックに対処する必要があります。Fireworks の推論スタックは、まさにこのようなプレッシャーに耐えるように設計されています。
GLM 5.2 は MIT ライセンスの下で提供され、商用利用、変更、再配布が自由に行えます。これは、Kimi、Qwen、DeepSeek、MiniMax に続く、急速なオープンリリースの最新例です。米国の政策がフロンティアモデルへの監視を強める中でも、オープンウェイトエコシステムは成長を続けています。
Fireworks は、公開ベンチマークは一般的な質問に答えるものであり、ユーザー自身のワークロードに最適なモデルを選択するには実際のタスクで評価することを推奨しています。プラットフォームでは、Playground でのクイック体験、Serverless API(トークン単位課金、プロンプトキャッシュデフォルト有効、キャッシュ入力トークンは $0.26/M、出力 $4.40/M)、Anthropic 互換 API や OpenAI 互換 API など、複数の利用方法を提供しています。Claude Code や OpenCode などのコーディングエージェントにも統合可能です。