GLM-5.2 OpenAI互換API:推理努力、関数呼び出し、長コンテキスト検索の実践ガイド
このチュートリアルでは、GLM-5.2のOpenAI互換APIを使用する実践的な手順を提供します。クライアント設定、推論努力の制御、ストリーミング、関数呼び出し、マルチステップツールエージェント、構造化JSON出力、長コンテキスト検索、コスト見積もりをカバーします。再利用可能なチャットラッパーと複数のプロバイダオプションにより、読者はすぐにモデルの高度な機能を試すことができます。
このチュートリアルでは、GLM-5.2モデルのホスト型OpenAI互換APIを使用します。ローカルで完全なモデルを実行する代わりに、APIを通じてモデルにアクセスします。まず、複数のプロバイダオプションを設定し、APIキーを安全に読み込み、通常のチャット、思考モード、ストリーミング、ツール呼び出し、トークン追跡をサポートする再利用可能なチャットラッパーを作成します。次に、単純なチャットボットの例を超えて、推論努力の制御、ストリーミング推論と回答、関数呼び出し、小さなツール使用エージェント、構造化JSON出力、長コンテキスト検索、コスト見積もりなど、より実用的な状況でモデルをテストします。
最初に、必要なライブラリをインストールし、プロバイダ設定を定義します。このチュートリアルでは、ZAI、OpenRouter、Together、Requesty、Hugging Faceなど複数のプロバイダをサポートし、デフォルトはZAIです。APIキーを安全に読み込む関数を作成し、環境変数やColabユーザーデータから優先的に取得し、それ以外の場合は入力を求めます。次に、OpenAIクライアントを作成し、グローバルトークン使用量トラッカーを設定して、入力トークン、出力トークン、呼び出し回数を記録します。さらに、GLMモデルの隠れた推論トレースを抽出する関数を定義します。これはストリーミング応答で特に便利です。最後に、extra_bodyパラメータを介してGLM固有のパラメータ(思考モードのオン/オフ、推論努力レベルなど)を渡す再利用可能なチャット関数を作成します。
次に、基本的なチャットテストを実行してモデルが正常に動作することを確認します。思考モードをオフにして簡単な質問応答を行い、モデルが簡潔な技術的回答を生成できることを確認します。その後、推論努力制御機能をテストします。同じ問題に対して、思考オフ、高努力、最大努力の3つのモードを比較し、応答時間と出力トークン数の違いを観察します。結果は、思考オフモードが最速である一方で深さに欠ける可能性があり、最大努力モードは時間がかかるものの、より詳細な推論ステップを提供できることを示しています。ストリーミングデモでは、推論チャネルと回答チャネルの出力を別々に表示し、モデルの思考プロセスと最終回答をリアルタイムで確認できます。
関数呼び出しはGLM-5.2の重要な機能です。2つの単純なツールを定義します:電卓(基本的な算術演算をサポート)と都市人口検索ツール(事前定義された都市人口データを返す)。次に、OpenAIツール呼び出し形式に従ってこれらのツールを登録し、モデルが複数のステップでツールを呼び出し、結果を統合できるツールループ関数を作成します。デモでは、モデルがツールを使用して東京とメキシコシティの人口比率を計算し、東京、デリー、上海の人口をランク付けして上位2都市の合計人口を報告することに成功しました。これは、マルチステップ推論とツール使用におけるモデルの能力を示しています。
また、構造化JSON出力と長コンテキスト検索も紹介します。コード部分は一部省略されていますが、チュートリアルではパラメータを使用したJSONモード出力と、GLM-5.2の超長コンテキストウィンドウ(最大128Kトークン)を活用した大規模ドキュメント処理を強調しています。最後に、セッション全体のトークン使用量とコストを計算し、各デモが測定可能であることを確認します。このチュートリアルは、開発者にGLM-5.2 APIの完全な使用ガイドを提供し、実際のアプリケーションへの迅速な統合を支援します。