Cloudflare AI Gatewayが支出制限をサポート
Cloudflare AI Gatewayに支出制限機能が追加され、モデル、プロバイダー、カスタムメタデータごとに予算を設定できます。累積支出が制限に達すると、リクエストはブロックされるか、安価なモデルにフォールバックします。
Cloudflare AI Gatewayに新たに追加された支出制限機能により、ユーザーはコストベースの予算を設定し、AI APIの呼び出し費用を詳細に管理できるようになりました。従来のレート制限とは異なり、支出制限はモデル価格とトークン使用量に基づく実際のドルコストをリアルタイムで累積します。設定された時間枠内で累積支出が予算上限に達すると、AI Gatewayは429 Too Many Requestsレスポンスを返し、ウィンドウがリセットされるまで後続のリクエストをブロックします。各ルールにはローリングまたは固定の時間枠を設定でき、モデル、プロバイダー、カスタムメタデータ(ユーザーID、チーム、アプリケーションなど)のディメンションで予算バケットを分割またはフィルタリングできます。例えば、ユーザーIDで分割すればユーザーごとに独立した予算を持たせられ、特定のモデルにフィルタリングすればそのモデルのリクエストのみに制限を適用できます。ゲートウェイごとに最大20のルールを定義可能です。制限に達した場合の動作は2種類あります。デフォルトではリクエストをブロックしますが、動的ルートを設定してプライマリモデルの予算超過時に自動的に安価なフォールバックモデル(例:Anthropic Claude OpusからKimi K2.6)にルーティングすることも可能です。分析ダッシュボードではモデル、プロバイダー、メタデータごとの支出を追跡でき、適切な予算設定に役立ちます。なお、コスト追跡はトークン数とモデル価格に基づくベストエフォートの推定であり、正確な請求額はプロバイダーのダッシュボードを参照してください。支出制限は結果的整合性を持ち、同時実行リクエストのバーストにより一時的に制限を超える可能性があります。この機能はUnified BillingリクエストとBYOKリクエストの両方で利用可能です。ディメンションの設定により、細かい粒度で予算を管理できます。各ディメンションは「値で分割」または「値でフィルタ」の2つのモードを選択可能で、例えばユーザーIDで分割すると各ユーザーが独立した予算を持ち、チームでフィルタすると特定チームのリクエストのみに制限が適用されます。この柔軟性により、組織は自社のニーズに合わせたコスト管理が実現できます。