AI News HubLIVE
サイト内リライト2 分で読了

ディープエージェントのプロンプトキャッシング

Deep Agentsがプロンプトキャッシングを活用し、追加設定不要で主要モデルプロバイダーのLLMトークンコストを最大80%削減する方法をご紹介します。

大規模言語モデル(LLM)を使用したエージェントでは、会話が長くなるにつれてトークンコストが急増します。新しいメッセージごとに、システムプロンプト、ツール記述、スキル、メッセージ履歴など、会話全体を再処理する必要があるからです。プロンプトキャッシングは、プロンプト処理後のモデル状態のスナップショットを保存し、後続のリクエストでは新しいテキストのみを処理することでコストを大幅に削減します。しかし、モデルプロバイダーごとにキャッシュ制御のサポート状況が異なり、プロバイダーに依存しない最適化は容易ではありません。

Deep Agentsは、汎用的でモデルに依存しないエージェントフレームワークであり、主要なプロバイダーのプロンプトキャッシング機能を自動的に活用します。明示的なブレークポイントがサポートされている場合はそれを設定し、サポートされていない場合はプロバイダー側の暗黙的キャッシュをオプトインし、さらにプロンプト構造を最適化してキャッシュヒット率を最大化します。例えば、メモリの更新や会話の圧縮などでキャッシュが無効になる場合でも、Deep Agentsはプロンプトとキャッシュブレークポイントを構造化することで影響範囲を最小限に抑え、一部のキャッシュを維持します。

実際の評価では、3つのプロバイダー(Claude Haiku 4-5、GPT-5.4-mini、Gemini 3.5 Flash)の中級モデルで49〜80%のトークンコスト削減が確認されました。GPT-5.4-miniはOpenAIの自動最長プレフィックスキャッシュにより80%削減、Claude Haiku 4-5はAnthropicの明示的ブレークポイントで77%削減、Gemini 3.5 Flashは暗黙的キャッシュながら49%削減を達成しました。会話が長いほどキャッシュの恩恵は大きく、長期タスクで最も効果を発揮します。

キャッシュ効果の測定も重要です。LangSmithは、呼び出しごとおよび軌跡ごとに、初回トークン時間、総入力トークン、キャッシュ読み取りトークン、出力トークンを可視化します。これらのデータを分析することで、キャッシュによるコスト削減を正確に評価し、エージェント戦略を最適化できます。

モデルプロバイダーがキャッシュプレウォーム、ルーティングキー、設定可能TTLなどの新機能を追加するにつれて、Deep Agentsはそれらを既存のフレームワークに統合し、継続的なコスト削減とレイテンシ改善を提供していきます。