2026-06-05 15:37 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

Cloudflare AI Gateway 現支援消費限額

Cloudflare AI Gateway 引入了消費限額功能，允許使用者根據模型、提供商或自定義後設資料設定預算。當累計消費達到限額時，AI Gateway 會阻止進一步請求並可選擇回退到更便宜的模型。

Cloudflare AI Gateway 新推出的消費限額功能讓使用者能夠基於成本設定預算，從而更精細地控制AI API呼叫費用。與傳統的速率限制不同，消費限額按每次請求的即時美元成本（基於模型定價和token用量）進行累計。當在設定的時間視窗內累計消費達到預算上限時，AI Gateway 會返回429狀態碼阻止後續請求，直到視窗重置。使用者可以為每個規則選擇滾動時間視窗或固定時間視窗，並按模型、提供商或自定義後設資料（如使用者ID、團隊或應用）來劃分預算桶。例如，可以透過按使用者ID拆分來實現每個使用者獨立預算，或透過按模型過濾僅對特定模型生效。每個閘道器最多可定義20條消費限額規則。當限額被觸發時，AI Gateway 預設會直接阻止請求。但使用者也可以配置動態路由，當主模型的預算耗盡時自動將請求回退到更便宜的備用模型（如從Claude Opus回退到Kimi K2.6）。此外，分析儀表盤提供了按模型、提供商或後設資料的消費追蹤，幫助使用者瞭解使用模式並設定合理的預算。需要注意的是，成本追蹤基於token計數和模型定價的估算，並非精確計費，最終金額應參考提供商賬單。由於消費限額是最終一致性模型，短時間內併發請求可能導致短暫超限。該功能支援Unified Billing和BYOK兩種請求模式。另外，使用者可以透過維度靈活配置預算範圍：例如，按使用者ID拆分可為每位使用者提供獨立預算；按模型過濾則只對特定模型生效。每個維度有兩種模式：按值拆分或按值過濾。按值拆分時，每個不同的值擁有獨立的預算桶；按值過濾時，規則僅適用於匹配特定值的請求。這種靈活性使組織能夠根據自身需求進行細粒度成本控制。