2026-06-05 15:37 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

Cloudflare AI Gateway 現支持消費限額

Cloudflare AI Gateway 引入了消費限額功能，允許用户根據模型、提供商或自定義元數據設置預算。當累計消費達到限額時，AI Gateway 會阻止進一步請求並可選擇回退到更便宜的模型。

Cloudflare AI Gateway 新推出的消費限額功能讓用户能夠基於成本設置預算，從而更精細地控制AI API調用費用。與傳統的速率限制不同，消費限額按每次請求的實時美元成本（基於模型定價和token用量）進行累計。當在設定的時間窗口內累計消費達到預算上限時，AI Gateway 會返回429狀態碼阻止後續請求，直到窗口重置。用户可以為每個規則選擇滾動時間窗口或固定時間窗口，並按模型、提供商或自定義元數據（如用户ID、團隊或應用）來劃分預算桶。例如，可以通過按用户ID拆分來實現每個用户獨立預算，或通過按模型過濾僅對特定模型生效。每個網關最多可定義20條消費限額規則。當限額被觸發時，AI Gateway 默認會直接阻止請求。但用户也可以配置動態路由，當主模型的預算耗盡時自動將請求回退到更便宜的備用模型（如從Claude Opus回退到Kimi K2.6）。此外，分析儀表盤提供了按模型、提供商或元數據的消費追蹤，幫助用户瞭解使用模式並設定合理的預算。需要注意的是，成本追蹤基於token計數和模型定價的估算，並非精確計費，最終金額應參考提供商賬單。由於消費限額是最終一致性模型，短時間內併發請求可能導致短暫超限。該功能支持Unified Billing和BYOK兩種請求模式。另外，用户可以通過維度靈活配置預算範圍：例如，按用户ID拆分可為每位用户提供獨立預算；按模型過濾則只對特定模型生效。每個維度有兩種模式：按值拆分或按值過濾。按值拆分時，每個不同的值擁有獨立的預算桶；按值過濾時，規則僅適用於匹配特定值的請求。這種靈活性使組織能夠根據自身需求進行細粒度成本控制。