AI News HubLIVE
站内改写1 分鐘閱讀

Cloudflare AI Gateway 現支援消費限額

Cloudflare AI Gateway 引入了消費限額功能,允許使用者根據模型、提供商或自定義後設資料設定預算。當累計消費達到限額時,AI Gateway 會阻止進一步請求並可選擇回退到更便宜的模型。

來源Hacker News AI作者: tjek

Cloudflare AI Gateway 新推出的消費限額功能讓使用者能夠基於成本設定預算,從而更精細地控制AI API呼叫費用。與傳統的速率限制不同,消費限額按每次請求的即時美元成本(基於模型定價和token用量)進行累計。當在設定的時間視窗內累計消費達到預算上限時,AI Gateway 會返回429狀態碼阻止後續請求,直到視窗重置。使用者可以為每個規則選擇滾動時間視窗或固定時間視窗,並按模型、提供商或自定義後設資料(如使用者ID、團隊或應用)來劃分預算桶。例如,可以透過按使用者ID拆分來實現每個使用者獨立預算,或透過按模型過濾僅對特定模型生效。每個閘道器最多可定義20條消費限額規則。當限額被觸發時,AI Gateway 預設會直接阻止請求。但使用者也可以配置動態路由,當主模型的預算耗盡時自動將請求回退到更便宜的備用模型(如從Claude Opus回退到Kimi K2.6)。此外,分析儀表盤提供了按模型、提供商或後設資料的消費追蹤,幫助使用者瞭解使用模式並設定合理的預算。需要注意的是,成本追蹤基於token計數和模型定價的估算,並非精確計費,最終金額應參考提供商賬單。由於消費限額是最終一致性模型,短時間內併發請求可能導致短暫超限。該功能支援Unified Billing和BYOK兩種請求模式。另外,使用者可以透過維度靈活配置預算範圍:例如,按使用者ID拆分可為每位使用者提供獨立預算;按模型過濾則只對特定模型生效。每個維度有兩種模式:按值拆分或按值過濾。按值拆分時,每個不同的值擁有獨立的預算桶;按值過濾時,規則僅適用於匹配特定值的請求。這種靈活性使組織能夠根據自身需求進行細粒度成本控制。