2026-06-27 02:13 UTC+9サイト内リライト2 分で読了更新: 2026-06-27 02:18 UTC+9

ディープエージェントのプロンプトキャッシング

Deep Agentsがプロンプトキャッシングを活用し、追加設定不要で主要モデルプロバイダーのLLMトークンコストを最大80%削減する方法をご紹介します。

ソースLangChain Blog

記事インテリジェンス

エンジニア上級

要点

プロンプトキャッシングは、プロンプト処理後のモデル状態を保存することで、推論トークンコストを41〜80%削減します。
プロバイダーごとにキャッシュ制御のサポートが異なり、プロバイダーに依存しない最適化は困難です。
Deep Agentsは各プロバイダーに最適なキャッシュ戦略を自動適用し、最大限のコスト削減を実現します。
評価では、主要プロバイダーの実エージェント軌跡において49〜80%のコスト削減が確認されました。

重要な理由

このニュースが重要なのは、プロンプトキャッシングは、プロンプト処理後のモデル状態を保存することで、推論トークンコストを41〜80%削減しますためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

このパネルは AI が生成し、正確性を確認済みです。

大規模言語モデル（LLM）を使用したエージェントでは、会話が長くなるにつれてトークンコストが急増します。新しいメッセージごとに、システムプロンプト、ツール記述、スキル、メッセージ履歴など、会話全体を再処理する必要があるからです。プロンプトキャッシングは、プロンプト処理後のモデル状態のスナップショットを保存し、後続のリクエストでは新しいテキストのみを処理することでコストを大幅に削減します。しかし、モデルプロバイダーごとにキャッシュ制御のサポート状況が異なり、プロバイダーに依存しない最適化は容易ではありません。

Deep Agentsは、汎用的でモデルに依存しないエージェントフレームワークであり、主要なプロバイダーのプロンプトキャッシング機能を自動的に活用します。明示的なブレークポイントがサポートされている場合はそれを設定し、サポートされていない場合はプロバイダー側の暗黙的キャッシュをオプトインし、さらにプロンプト構造を最適化してキャッシュヒット率を最大化します。例えば、メモリの更新や会話の圧縮などでキャッシュが無効になる場合でも、Deep Agentsはプロンプトとキャッシュブレークポイントを構造化することで影響範囲を最小限に抑え、一部のキャッシュを維持します。

実際の評価では、3つのプロバイダー（Claude Haiku 4-5、GPT-5.4-mini、Gemini 3.5 Flash）の中級モデルで49〜80%のトークンコスト削減が確認されました。GPT-5.4-miniはOpenAIの自動最長プレフィックスキャッシュにより80%削減、Claude Haiku 4-5はAnthropicの明示的ブレークポイントで77%削減、Gemini 3.5 Flashは暗黙的キャッシュながら49%削減を達成しました。会話が長いほどキャッシュの恩恵は大きく、長期タスクで最も効果を発揮します。

キャッシュ効果の測定も重要です。LangSmithは、呼び出しごとおよび軌跡ごとに、初回トークン時間、総入力トークン、キャッシュ読み取りトークン、出力トークンを可視化します。これらのデータを分析することで、キャッシュによるコスト削減を正確に評価し、エージェント戦略を最適化できます。

モデルプロバイダーがキャッシュプレウォーム、ルーティングキー、設定可能TTLなどの新機能を追加するにつれて、Deep Agentsはそれらを既存のフレームワークに統合し、継続的なコスト削減とレイテンシ改善を提供していきます。