AI News HubLIVE
站内改写4 分钟阅读

你的AI账单失控了。Cloudflare现在可以解决它。

Cloudflare AI Gateway新增实时支出限制功能,防止跨多个AI提供商的令牌费用失控。通过与Cloudflare Access集成,公司可以使用基于身份的预算和策略。

来源Cloudflare AI Blog作者: Ming Lu

没有哪位CIO不为当前的AI支出而担忧,CFO们也越来越紧张。许多公司为了不落后,曾推动员工尽可能积极地使用AI,指令是“快速行动,账单以后再说”。这确实有效:AI对那些积极投入的团队带来了真正的变革。但成本是真实的:我们听到了无数关于巨额账单和令牌超支的恐怖故事。

今天,我们宣布Cloudflare AI Gateway中的支出控制功能,以及基于Cloudflare Access和现有身份提供商的身份驱动预算和路由的封闭测试。

在与数百家公司讨论AI战略时,我们发现一个共同的故事:公司给每位工程师提供通过共享API密钥访问前沿模型的权限。使用量激增。月底,财务部门拿出发票,却没人能解释钱花在了哪里。是机器学习团队训练新管道?还是实习生用Claude Opus处理邮件分类?或者是失控的持续集成作业在一个周末烧掉了5000万个令牌?没人知道,因为API密钥无法告诉你谁在使用。

没有指导方针,员工通常会选择最大的模型。为什么?如果没有预算、没有可见性、没有路由逻辑,理性做法就是使用最强大的模型处理一切。问题在于大多数任务并不需要前沿模型。代码审查摘要不需要与复杂架构重构相同的模型;日志解析不需要与面向客户的内容生成器相同的模型。应该轻松选择适合工作的工具,而不是默认使用最强大最昂贵的模型。同时,应该能简单看到支出流向。

没有支出可见性,就无法计算AI投资的ROI;没有控制,就无法保护ROI。企业中其他每项开支都有预算和按团队的归属,AI支出也应如此。

AI Gateway是什么?它位于你的应用和AI提供商之间。请求不直接调用OpenAI、Anthropic、Google等提供商,而是首先通过AI Gateway路由。这立即提供了几个有用的工具:统一计费,轻松切换提供商和模型;跨所有提供商的日志记录——每个请求、令牌数和成本集中一处;响应缓存;速率限制;内容护栏,以及在请求到达模型前阻止个人身份信息和秘密的能力。

然而,AI Gateway之前缺乏一种简单方法来回答谁在支出什么,或如何设置AI支出限制。你可以看到账户的总使用量,但无法看出工程师Jane本月在Claude上花了2000美元,而整个数据科学团队只用了400美元。你无法设置这样的预算:“工程团队每月在尖端模型上投入5000美元,实习生每月在GPT-4o-mini上投入200美元。”

今天,这一情况发生了改变。

支出限制:AI使用的预算

AI Gateway现在支持支出限制作为核心功能。这些是以美元而不是令牌设置的真正成本控制措施,追踪所有请求的累计支出,独立于传统速率限制。你可以将限制范围设定为模型、提供商或管理员定义的自定义属性(如用户、团队或应用程序)的任何组合。时间窗口可以是固定的(每月1日、周一或午夜重置)或滚动的,并设置为每日、每周或每月。

AI Gateway根据模型定价计算每次请求的成本,并实时跟踪累计支出。你可以通过分析仪表板按模型、提供商或任何自定义属性轻松追踪模型支出。当预算达到限制时,你有多种选择:默认情况下,AI Gateway会阻止后续请求;或者你可以通过动态路由设置规则,在达到支出限制后将请求路由到备用模型,这样硬性支出上限不会影响工程师的工作流程。我们正在努力增加达到限制时发送警报的功能。

支出限制现已对所有计划的AI Gateway用户开放公开测试版。你可以在仪表板的网关设置中或通过API进行配置。

我们自己在使用

我们已经在Cloudflare内部追踪令牌成本。每位Cloudflare员工每天使用AI工具,每月通过AI Gateway路由数百万请求和数十亿令牌。我们面临每家公司在此规模下都会遇到的问题:谁在使用什么,我们如何为此做预算?我们通过让AI Gateway为每个请求添加身份信息来解决这个问题。当员工通过Cloudflare Access进行身份验证时,我们从JSON Web令牌中提取其身份,并将其作为元数据附加到AI Gateway请求上。这使得每个用户的令牌消耗、团队级别的使用量分解以及组织内的成本归属都在一处可见。

身份驱动的预算和策略(封闭测试版)

除了支出限制,今天我们还将宣布身份驱动的预算和策略作为封闭测试版。AI Gateway的支出限制允许你按模型、提供商或自定义属性设置预算,但应用程序必须传递这些元数据,而AI Gateway信任它收到的任何内容。为了实现经过验证的自动归属,你需要身份。

与Cloudflare Access结合后,AI Gateway可以看到谁在发出每个请求——不仅是哪个账户,而是哪个员工、哪个身份提供商组、哪个服务等。实际效果如下:你可以设置每个用户的预算,例如个人贡献者每月500美元,高级工程师每月2000美元。当用户达到限制时,请求可以降级到更便宜的模型或被阻止。

你可以设置每个团队的模型策略。例如,机器学习团队可以使用Claude Opus和GPT-4o;品牌设计团队可以访问生成图像和视频模型;实习生使用Workers AI上的开源模型。这些策略直接映射到你现有的身份提供商组——你已经在管理的同一组。

对于CI/CD管道和自主代理,Access服务令牌允许你为每个代理赋予命名身份。你可以看到你的代码审查机器人本周使用了500万个令牌,而文档生成器使用了50万个。如果一个代理失控,你可以对其应用预算策略,而不影响其他代理。

每个AI Gateway日志条目将包含已验证的身份:电子邮件、身份提供商组、服务令牌名称。将这些导出到你的分析平台,你就可以在不构建任何自定义工具的情况下获得按用户和团队的成本分解。

在底层,你需要为AI Gateway端点创建一个Cloudflare Access应用程序,并根据你的身份提供商组配置策略。当开发人员或代理发出请求时,他们通过OAuth进行身份验证,使用典型的CLI设备代码流程。AI Gateway验证令牌并提取身份。你无需编写自定义Worker、自行解析JWT或依赖荣誉系统的元数据头。

我们最近写了一篇关于如何构建我们内部AI工程栈的文章。现在我们正在提供这些功能,以便你也可以使用,而不必自己构建。

如果你想加入封闭测试版,请在此注册。

下一步:从成本控制到成本优化

设定预算必不可少。但有了预算后,如何使其最大化?实际情况是,并非每个请求都需要尖端模型:摘要任务可以在更小、更便宜的模型上运行而不会造成有意义的质量损失,而大规模代码重构可能需要前沿技术。但如果没有控制,人们几乎总是会选择最先进的模型。

解决方案即将到来:我们正在AI Gateway中构建智能任务路由。对于每个请求,我们可以分析并自动将其路由到能以最低成本提供最佳结果的模型。这正在积极开发中,请关注我们的开发者文档和变更日志。

开始使用

免费开始使用AI Gateway。支出限制现已对所有用户开放。如果你还没有,请创建一个网关并将你的应用程序指向它。然后,在仪表板或通过API设置支出限制。建议先从监控模式的高限开始,了解当前使用模式,然后再开始强制执行。

如果你需要按用户归属和基于团队的策略,请注册身份驱动预算封闭测试版,我们将为你设置Access集成。

我们想知道你目前如何管理AI成本。加入Cloudflare Community的讨论,或联系我们讨论你的更广泛AI安全策略。