Cloudflare AI Gateway 现支持消费限额
Cloudflare AI Gateway 引入了消费限额功能,允许用户根据模型、提供商或自定义元数据设置预算。当累计消费达到限额时,AI Gateway 会阻止进一步请求并可选择回退到更便宜的模型。
Cloudflare AI Gateway 新推出的消费限额功能让用户能够基于成本设置预算,从而更精细地控制AI API调用费用。与传统的速率限制不同,消费限额按每次请求的实时美元成本(基于模型定价和token用量)进行累计。当在设定的时间窗口内累计消费达到预算上限时,AI Gateway 会返回429状态码阻止后续请求,直到窗口重置。用户可以为每个规则选择滚动时间窗口或固定时间窗口,并按模型、提供商或自定义元数据(如用户ID、团队或应用)来划分预算桶。例如,可以通过按用户ID拆分来实现每个用户独立预算,或通过按模型过滤仅对特定模型生效。每个网关最多可定义20条消费限额规则。当限额被触发时,AI Gateway 默认会直接阻止请求。但用户也可以配置动态路由,当主模型的预算耗尽时自动将请求回退到更便宜的备用模型(如从Claude Opus回退到Kimi K2.6)。此外,分析仪表盘提供了按模型、提供商或元数据的消费追踪,帮助用户了解使用模式并设定合理的预算。需要注意的是,成本追踪基于token计数和模型定价的估算,并非精确计费,最终金额应参考提供商账单。由于消费限额是最终一致性模型,短时间内并发请求可能导致短暂超限。该功能支持Unified Billing和BYOK两种请求模式。另外,用户可以通过维度灵活配置预算范围:例如,按用户ID拆分可为每位用户提供独立预算;按模型过滤则只对特定模型生效。每个维度有两种模式:按值拆分或按值过滤。按值拆分时,每个不同的值拥有独立的预算桶;按值过滤时,规则仅适用于匹配特定值的请求。这种灵活性使组织能够根据自身需求进行细粒度成本控制。