Cloudflare AI Gateway 現支持消費限額
Cloudflare AI Gateway 引入了消費限額功能,允許用户根據模型、提供商或自定義元數據設置預算。當累計消費達到限額時,AI Gateway 會阻止進一步請求並可選擇回退到更便宜的模型。
Cloudflare AI Gateway 新推出的消費限額功能讓用户能夠基於成本設置預算,從而更精細地控制AI API調用費用。與傳統的速率限制不同,消費限額按每次請求的實時美元成本(基於模型定價和token用量)進行累計。當在設定的時間窗口內累計消費達到預算上限時,AI Gateway 會返回429狀態碼阻止後續請求,直到窗口重置。用户可以為每個規則選擇滾動時間窗口或固定時間窗口,並按模型、提供商或自定義元數據(如用户ID、團隊或應用)來劃分預算桶。例如,可以通過按用户ID拆分來實現每個用户獨立預算,或通過按模型過濾僅對特定模型生效。每個網關最多可定義20條消費限額規則。當限額被觸發時,AI Gateway 默認會直接阻止請求。但用户也可以配置動態路由,當主模型的預算耗盡時自動將請求回退到更便宜的備用模型(如從Claude Opus回退到Kimi K2.6)。此外,分析儀表盤提供了按模型、提供商或元數據的消費追蹤,幫助用户瞭解使用模式並設定合理的預算。需要注意的是,成本追蹤基於token計數和模型定價的估算,並非精確計費,最終金額應參考提供商賬單。由於消費限額是最終一致性模型,短時間內併發請求可能導致短暫超限。該功能支持Unified Billing和BYOK兩種請求模式。另外,用户可以通過維度靈活配置預算範圍:例如,按用户ID拆分可為每位用户提供獨立預算;按模型過濾則只對特定模型生效。每個維度有兩種模式:按值拆分或按值過濾。按值拆分時,每個不同的值擁有獨立的預算桶;按值過濾時,規則僅適用於匹配特定值的請求。這種靈活性使組織能夠根據自身需求進行細粒度成本控制。