2026-06-05 15:37 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

Cloudflare AI Gateway 现支持消费限额

Cloudflare AI Gateway 引入了消费限额功能，允许用户根据模型、提供商或自定义元数据设置预算。当累计消费达到限额时，AI Gateway 会阻止进一步请求并可选择回退到更便宜的模型。

Cloudflare AI Gateway 新推出的消费限额功能让用户能够基于成本设置预算，从而更精细地控制AI API调用费用。与传统的速率限制不同，消费限额按每次请求的实时美元成本（基于模型定价和token用量）进行累计。当在设定的时间窗口内累计消费达到预算上限时，AI Gateway 会返回429状态码阻止后续请求，直到窗口重置。用户可以为每个规则选择滚动时间窗口或固定时间窗口，并按模型、提供商或自定义元数据（如用户ID、团队或应用）来划分预算桶。例如，可以通过按用户ID拆分来实现每个用户独立预算，或通过按模型过滤仅对特定模型生效。每个网关最多可定义20条消费限额规则。当限额被触发时，AI Gateway 默认会直接阻止请求。但用户也可以配置动态路由，当主模型的预算耗尽时自动将请求回退到更便宜的备用模型（如从Claude Opus回退到Kimi K2.6）。此外，分析仪表盘提供了按模型、提供商或元数据的消费追踪，帮助用户了解使用模式并设定合理的预算。需要注意的是，成本追踪基于token计数和模型定价的估算，并非精确计费，最终金额应参考提供商账单。由于消费限额是最终一致性模型，短时间内并发请求可能导致短暂超限。该功能支持Unified Billing和BYOK两种请求模式。另外，用户可以通过维度灵活配置预算范围：例如，按用户ID拆分可为每位用户提供独立预算；按模型过滤则只对特定模型生效。每个维度有两种模式：按值拆分或按值过滤。按值拆分时，每个不同的值拥有独立的预算桶；按值过滤时，规则仅适用于匹配特定值的请求。这种灵活性使组织能够根据自身需求进行细粒度成本控制。