あなたのAI請求書は制御不能です。Cloudflareが今すぐ修正できます。
AI Gatewayは、複数のAIプロバイダーにわたるトークン費用の暴走を防ぐためのリアルタイム支出制限を新たに搭載。Cloudflare Accessとの統合により、企業はIDベースの予算とポリシーを利用できます。
AI支出に悩まされていないCIOはいません。CFOたちもますます不安を募らせています。多くの企業は、後れを取ることを恐れて、従業員にできる限り積極的にAIを活用するよう促し、「迅速に行動し、請求は後で考える」という方針を掲げてきました。そして、それはおおむね成功しました。AIは、積極的に取り組んだチームに真の変革をもたらしました。しかし、コストは現実のものです。私たちは、巨額の請求書やトークン支出の痛ましい過剰請求に関する数多くの恐ろしい話を聞いてきました。
本日、Cloudflare AI Gatewayの支出制御機能、そしてCloudflare Accessと既存のIDプロバイダーを利用したIDベースの予算とルーティングのクローズドベータ版を発表します。
数百社の企業とAI戦略について話し合う中で、私たちは共通のストーリーを見てきました。企業は全エンジニアに共有APIキーを通じて最先端モデルへのアクセスを提供します。使用量が急増します。月末に財務部門が請求書を確認しても、誰もお金の使途を説明できません。機械学習チームが新しいパイプラインを訓練していたのか?インターンがメールトリアージにClaude Opusを使っていたのか?週末に5000万トークンを消費した暴走CIジョブなのか?誰もわかりません。APIキーは誰が使ったかを教えてくれないからです。
ガイドラインがなければ、スタッフは一般的に利用可能な最大のモデルに手を伸ばします。なぜそうしないのでしょうか?予算も可視性もルーティングロジックもなければ、最も強力なモデルをすべてに使うのが合理的です。問題は、ほとんどのタスクに最先端モデルは不要だということです。コードレビューの要約には、複雑なアーキテクチャのリファクタリングと同じモデルは必要ありません。ログパーサーには、顧客向けコンテンツ生成器と同じモデルは必要ありません。最も強力で高価なものをデフォルトにするのではなく、仕事に適したツールを簡単に選択できるべきです。そして、支出の行き先を簡単に確認できるべきです。
AI支出の可視性がなければROIを計算できず、制御がなければそのROIを保護できません。ビジネスの他のすべての費目には予算とチームごとの帰属があり、AI支出も同様であるべきです。
AI Gatewayとは
AI Gatewayは、アプリケーションとAIプロバイダーの間に位置します。OpenAI、Anthropic、Googleなどのプロバイダーに直接呼び出す代わりに、リクエストはまずAI Gatewayを経由します。これにより、すぐにいくつかの便利なツールが得られます。
- 統一された課金:プロバイダーやモデル間の切り替えが容易
- 全プロバイダーにわたるログ記録:すべてのリクエスト、トークン数、コストを一箇所で
- レスポンスキャッシュ
- レート制限
- コンテンツガードレール:個人情報や機密情報がモデルに到達する前にブロック
しかし、AI Gatewayには、誰が何に支出しているか、AI支出に制限を設定する簡単な方法がありませんでした。アカウント全体の集計使用量は確認できても、エンジニアのJaneが今月Claudeに2000ドル使った一方で、データサイエンスチーム全体は400ドルしか使っていない、といったことは確認できません。「エンジニアリングは最先端モデルに月5000ドル、インターンはGPT-4o-miniに月200ドル」といった予算を設定することもできませんでした。
それが本日変わります。
支出制限:AI使用の予算
AI Gatewayは、コア機能として支出制限をサポートするようになりました。これらはトークンではなくドルで設定された真のコスト管理手段であり、従来のレート制限とは独立して、すべてのリクエストにわたる累積支出を追跡します。制限は、モデル、プロバイダー、または管理者定義のカスタム属性(ユーザー、チーム、アプリケーションなど)の任意の組み合わせにスコープできます。期間は固定(毎月1日、月曜日、または深夜にリセット)またはローリングで、日次、週次、月次に設定できます。
AI Gatewayは、モデルの価格に基づいてリクエストごとのコストを計算し、累積支出をリアルタイムで制限に対して追跡します。ダッシュボードでは、モデル、プロバイダー、カスタム属性でフィルタリングしてモデル支出を簡単に追跡できます。予算制限に達した場合のオプションもあります。デフォルトではAI Gatewayは以降のリクエストをブロックします。また、動的ルートを通じてルールを設定し、支出制限に達した後にリクエストをフォールバックモデルにルーティングすることもできます。これにより、ハードな支出上限がエンジニアのワークフローを妨げることはありません。制限に達したときにアラートを送信する機能も追加作業中です。
支出制限は、本日より全プランのAI Gatewayユーザー向けにオープンベータで利用可能です。ダッシュボードのゲートウェイ設定またはAPIで構成できます。
私たち自身が使用しています
Cloudflare社内ではすでにトークンコストを追跡しています。すべてのCloudflare従業員が毎日AIツールを使用し、月間数百万のリクエストと数十億のトークンをAI Gateway経由でルーティングしています。私たちは、この規模でどの企業も直面する同じ課題に直面しました。誰が何を使っているのか、そしてどのように予算を立てるのか?
私たちは、AI Gatewayが各リクエストにIDを追加できるようにすることでこれを解決しました。従業員がCloudflare Accessを介して認証すると、JSON WebトークンからIDを抽出し、AI Gatewayリクエストにメタデータとして添付します。これにより、ユーザーごとのトークン消費、チームレベルの使用量内訳、組織全体のコスト帰属が一箇所で可視化されます。
IDベースの予算とポリシー(クローズドベータ)
支出制限に加えて、本日はIDベースの予算とポリシーをクローズドベータとして発表します。AI Gatewayの支出制限では、モデル、プロバイダー、カスタム属性ごとに予算を設定できますが、アプリケーションがそのメタデータを渡す必要があり、AI Gatewayは受け取ったものを信頼します。検証済みの自動帰属のためには、IDが必要です。
Cloudflare Accessと組み合わせると、AI Gatewayは各リクエストを行っているのが誰かを確認できます。アカウントだけでなく、どの従業員、どのIDプロバイダーグループ、どのサービスかなどです。実際の動作は次のとおりです。
ユーザーごとの予算を設定できます。たとえば、個人貢献者には月500ドル、シニアエンジニアには月2000ドル。ユーザーが制限に達すると、リクエストはより安価なモデルにダウングレードされるか、ブロックされます。
チームごとのモデルポリシーを設定できます。たとえば、MLチームはClaude OpusとGPT-4oにアクセス可能。ブランドデザインチームは画像・動画生成モデルにアクセス可能。インターンはWorkers AI上のオープンソースモデルを使用。これらのポリシーは、既存のIDプロバイダーグループに直接マッピングされます。
CI/CDパイプラインや自律エージェントの場合、Accessサービスートークンを使用して各エージェントに名前付きIDを付与できます。コードレビューボットが今週500万トークンを使用し、ドキュメント生成器が50万トークンを使用したことを確認できます。あるエージェントが制御不能になった場合、他のエージェントに影響を与えずに予算ポリシーを適用できます。
すべてのAI Gatewayログエントリには、認証されたID(メール、IDプロバイダーグループ、サービスートークン名)が含まれます。これらを分析プラットフォームにエクスポートすれば、カスタム構築なしでユーザー・チーム別のコスト内訳が得られます。
内部的には、AI Gatewayエンドポイント用のCloudflare Accessアプリケーションを作成し、IDプロバイダーグループに基づいてポリシーを構成します。開発者やエージェントがリクエストを行うと、OAuth(標準的なCLIデバイスコードフロー)を介して認証します。AI Gatewayはトークンを検証し、IDを抽出します。カスタムWorkerを書いたり、自分でJWTを解析したり、メタデータヘッダーを信用したりする必要はありません。
私たちは最近、社内AIエンジニアリングスタックの構築方法について記事を書きました。今日、私たちはそれを利用可能にしています。あなたもそれを使用でき、自分で構築する必要はありません。
クローズドベータへのアクセスを希望される方は、こちらからサインアップしてください。
次なる一手:コスト管理からコスト最適化へ
予算設定は不可欠です。しかし、予算が決まったら、どうやってそれを最大限に活用するか?現実には、すべてのリクエストに最先端モデルが必要なわけではありません。要約タスクは、より小さく安価なモデルで品質を損なわずに実行できますが、大規模なコードリファクタリングには最先端が必要かもしれません。しかし制御がなければ、人々はほぼ常に最も高度なモデルを選びます。
そのための解決策が次に来ます。AI Gatewayにインテリジェントなタスクベースルーティングを構築しています。各リクエストに対して、分析し、自動的に最適な結果を最低コストで提供するモデルにルーティングします。これは活発に開発中です。開発者ドキュメントとチェンジログをご確認ください。
はじめに
AI Gatewayは無料で始められます。支出制限は本日より全ユーザーが利用可能です。まだの方は、ゲートウェイを作成し、アプリケーションをポイントしてください。その後、ダッシュボードまたはAPIで支出制限を設定します。最初は監視モードで高い制限から始め、現在の使用パターンを把握してから強制することをお勧めします。
ユーザーごとの帰属とチームベースのポリシーが必要な場合は、IDベース予算クローズドベータにサインアップしてください。Access統合を設定します。
現在どのようにAIコストを管理しているか、ぜひお聞かせください。Cloudflare Communityの会話に参加するか、より広範なAIセキュリティ戦略について話し合うためにご連絡ください。