你的AI賬單失控了。Cloudflare現在可以解決它。
Cloudflare AI Gateway新增即時支出限制功能,防止跨多個AI提供商的令牌費用失控。透過與Cloudflare Access整合,公司可以使用基於身份的預算和策略。
沒有哪位CIO不為當前的AI支出而擔憂,CFO們也越來越緊張。許多公司為了不落後,曾推動員工儘可能積極地使用AI,指令是“快速行動,賬單以後再說”。這確實有效:AI對那些積極投入的團隊帶來了真正的變革。但成本是真實的:我們聽到了無數關於鉅額賬單和令牌超支的恐怖故事。
今天,我們宣佈Cloudflare AI Gateway中的支出控制功能,以及基於Cloudflare Access和現有身份提供商的身份驅動預算和路由的封閉測試。
在與數百家公司討論AI戰略時,我們發現一個共同的故事:公司給每位工程師提供透過共享API金鑰訪問前沿模型的許可權。使用量激增。月底,財務部門拿出發票,卻沒人能解釋錢花在了哪裡。是機器學習團隊訓練新管道?還是實習生用Claude Opus處理郵件分類?或者是失控的持續整合作業在一個週末燒掉了5000萬個令牌?沒人知道,因為API金鑰無法告訴你誰在使用。
沒有指導方針,員工通常會選擇最大的模型。為什麼?如果沒有預算、沒有可見性、沒有路由邏輯,理性做法就是使用最強大的模型處理一切。問題在於大多數任務並不需要前沿模型。程式碼審查摘要不需要與複雜架構重構相同的模型;日誌解析不需要與面向客戶的內容生成器相同的模型。應該輕鬆選擇適合工作的工具,而不是預設使用最強大最昂貴的模型。同時,應該能簡單看到支出流向。
沒有支出可見性,就無法計算AI投資的ROI;沒有控制,就無法保護ROI。企業中其他每項開支都有預算和按團隊的歸屬,AI支出也應如此。
AI Gateway是什麼?它位於你的應用和AI提供商之間。請求不直接呼叫OpenAI、Anthropic、Google等提供商,而是首先透過AI Gateway路由。這立即提供了幾個有用的工具:統一計費,輕鬆切換提供商和模型;跨所有提供商的日誌記錄——每個請求、令牌數和成本集中一處;響應快取;速率限制;內容護欄,以及在請求到達模型前阻止個人身份資訊和秘密的能力。
然而,AI Gateway之前缺乏一種簡單方法來回答誰在支出什麼,或如何設定AI支出限制。你可以看到賬戶的總使用量,但無法看出工程師Jane本月在Claude上花了2000美元,而整個資料科學團隊只用了400美元。你無法設定這樣的預算:“工程團隊每月在尖端模型上投入5000美元,實習生每月在GPT-4o-mini上投入200美元。”
今天,這一情況發生了改變。
支出限制:AI使用的預算
AI Gateway現在支援支出限制作為核心功能。這些是以美元而不是令牌設定的真正成本控制措施,追蹤所有請求的累計支出,獨立於傳統速率限制。你可以將限制範圍設定為模型、提供商或管理員定義的自定義屬性(如使用者、團隊或應用程式)的任何組合。時間視窗可以是固定的(每月1日、週一或午夜重置)或滾動的,並設定為每日、每週或每月。
AI Gateway根據模型定價計算每次請求的成本,並即時跟蹤累計支出。你可以透過分析儀表板按模型、提供商或任何自定義屬性輕鬆追蹤模型支出。當預算達到限制時,你有多種選擇:預設情況下,AI Gateway會阻止後續請求;或者你可以透過動態路由設定規則,在達到支出限制後將請求路由到備用模型,這樣硬性支出上限不會影響工程師的工作流程。我們正在努力增加達到限制時傳送警報的功能。
支出限制現已對所有計劃的AI Gateway使用者開放公開測試版。你可以在儀表板的閘道器設定中或透過API進行配置。
我們自己在使用
我們已經在Cloudflare內部追蹤令牌成本。每位Cloudflare員工每天使用AI工具,每月透過AI Gateway路由數百萬請求和數十億令牌。我們面臨每家公司在此規模下都會遇到的問題:誰在使用什麼,我們如何為此做預算?我們透過讓AI Gateway為每個請求新增身份資訊來解決這個問題。當員工透過Cloudflare Access進行身份驗證時,我們從JSON Web令牌中提取其身份,並將其作為後設資料附加到AI Gateway請求上。這使得每個使用者的令牌消耗、團隊級別的使用量分解以及組織內的成本歸屬都在一處可見。
身份驅動的預算和策略(封閉測試版)
除了支出限制,今天我們還將宣佈身份驅動的預算和策略作為封閉測試版。AI Gateway的支出限制允許你按模型、提供商或自定義屬性設定預算,但應用程式必須傳遞這些後設資料,而AI Gateway信任它收到的任何內容。為了實現經過驗證的自動歸屬,你需要身份。
與Cloudflare Access結合後,AI Gateway可以看到誰在發出每個請求——不僅是哪個賬戶,而是哪個員工、哪個身份提供商組、哪個服務等。實際效果如下:你可以設定每個使用者的預算,例如個人貢獻者每月500美元,高階工程師每月2000美元。當使用者達到限制時,請求可以降級到更便宜的模型或被阻止。
你可以設定每個團隊的模型策略。例如,機器學習團隊可以使用Claude Opus和GPT-4o;品牌設計團隊可以訪問生成影像和影片模型;實習生使用Workers AI上的開源模型。這些策略直接對映到你現有的身份提供商組——你已經在管理的同一組。
對於CI/CD管道和自主代理,Access服務令牌允許你為每個代理賦予命名身份。你可以看到你的程式碼審查機器人本週使用了500萬個令牌,而文件生成器使用了50萬個。如果一個代理失控,你可以對其應用預算策略,而不影響其他代理。
每個AI Gateway日誌條目將包含已驗證的身份:電子郵件、身份提供商組、服務令牌名稱。將這些匯出到你的分析平臺,你就可以在不構建任何自定義工具的情況下獲得按使用者和團隊的成本分解。
在底層,你需要為AI Gateway端點建立一個Cloudflare Access應用程式,並根據你的身份提供商組配置策略。當開發人員或代理發出請求時,他們透過OAuth進行身份驗證,使用典型的CLI裝置程式碼流程。AI Gateway驗證令牌並提取身份。你無需編寫自定義Worker、自行解析JWT或依賴榮譽系統的後設資料頭。
我們最近寫了一篇關於如何構建我們內部AI工程棧的文章。現在我們正在提供這些功能,以便你也可以使用,而不必自己構建。
如果你想加入封閉測試版,請在此註冊。
下一步:從成本控制到成本最佳化
設定預算必不可少。但有了預算後,如何使其最大化?實際情況是,並非每個請求都需要尖端模型:摘要任務可以在更小、更便宜的模型上執行而不會造成有意義的質量損失,而大規模程式碼重構可能需要前沿技術。但如果沒有控制,人們幾乎總是會選擇最先進的模型。
解決方案即將到來:我們正在AI Gateway中構建智慧任務路由。對於每個請求,我們可以分析並自動將其路由到能以最低成本提供最佳結果的模型。這正在積極開發中,請關注我們的開發者文件和變更日誌。
開始使用
免費開始使用AI Gateway。支出限制現已對所有使用者開放。如果你還沒有,請建立一個閘道器並將你的應用程式指向它。然後,在儀表板或透過API設定支出限制。建議先從監控模式的高限開始,瞭解當前使用模式,然後再開始強制執行。
如果你需要按使用者歸屬和基於團隊的策略,請註冊身份驅動預算封閉測試版,我們將為你設定Access整合。
我們想知道你目前如何管理AI成本。加入Cloudflare Community的討論,或聯絡我們討論你的更廣泛AI安全策略。