更便宜的LLM代幣反而導致更大的人工智慧賬單(傑文斯悖論)
隨著LLM代幣價格暴跌,企業人工智慧支出反而激增,因為代理型工作負載消耗的代幣量是聊天提示的50倍。Uber在四個月內燒光了全年AI預算,被迫實施每人每月1500美元的使用上限。本文分析了代幣定價經濟學,並建議將可變成本轉換為固定基礎設施以更好地控制預算。
Uber在四個月內燒完了全年的人工智慧預算。不是因為浪費,而是因為做了領導層鼓勵的事情。該公司有慶祝大量使用AI的內部排行榜,高管們公開讚揚生產力提升,然後賬單來了。結果是:從2026年6月起,每位員工使用每個代理編碼工具每月硬性上限為1500美元。這個故事不是關於一家公司規劃不善的警示,而是當按使用付費的代幣定價遇到大規模代理型工作負載時會發生的預演,而且它正在進入你的預算。
從數字開始。代幣價格在2025年至2026年間下降了約80%。你的工程師並沒有省下這些錢;他們將其視為執行更多、更長、更有野心的任務的許可。一項成本為10美元的任務現在只需2美元,所以你的團隊執行五次而不是一次,然後交給一個代理自動執行五十次。
最強烈的反駁是:“如果單位成本下降了80%,即使使用量增加三倍,賬單也會保持不變。”對於聊天式的單輪互動來說,這是正確的。但一旦引入代理迴圈,它就完全失效了,因為代理不會使代幣消耗增加三倍,而是使其增加50倍。一次代理編碼會話現在每個任務消耗100萬到350萬代幣;一個代理編碼工具,如果大量使用,僅憑自己就會超過Uber每月1500美元的上限。
數學並不微妙。以Claude Opus 4.8為例,你的高階工程師可能會在複雜重構任務中合理使用它。輸入代幣每百萬5美元,輸出代幣每百萬25美元。一次代理輪次:20萬輸入代幣×5美元/百萬=1美元。模型回覆5萬輸出代幣×25美元/百萬=1.25美元。總計每輪2.25美元。現在乘以一個真實工作日:每天40輪,20個工作日。那就是每月1800美元,來自一個工程師,使用一個工具,在一個模型上。Uber的1500美元上限不足以覆蓋。
輸出代幣是逃逸變數。每個主要模型的輸出代幣成本是輸入的4-10倍。在代理型工作負載上,輸出量是逃逸的變數。開發者支出遵循冪律分佈。一個單獨使用單一訂閱工具的開發者大約支付100美元。一個大量使用多工具的使用者大約400美元。而真正獲得生產力提升的代理型使用者則花費1500美元。據報道,微軟在發現一些工程師每人每月執行2000美元后,取消了員工的AI許可證。
這種分佈很重要,因為它關係到你如何考慮治理。從AI中獲得最大商業價值的工程師,結構上也是產生最大賬單的工程師。粗暴的工具級別上限兩者都限制。63%的組織現在將AI列為積極的FinOps關注點,高於2024年的31%,根據FinOps基金會的資料。這種翻倍不是恐慌,而是認識到按代幣計費沒有自然上限,財務團隊沒有為此做好準備。
結構性的替代方案是將可變成本轉換為固定的、可規劃的成本:你擁有的基礎設施,你執行的模型,賬單更像資料中心專案而不是計程車計價器。這就是架構變化,而不是配置調整。擁有堆疊也將第二個問題歸結為同一個決策:無法將敏感程式碼或專有資料傳送到外部API的團隊(如受監管行業),從同一個架構選擇中獲得成本控制和資料控制:當模型在你自己的邊界內執行時,支出是你預置的容量,資料永遠不會離開。
誠實的反對意見是,自有基礎設施前期成本更高。這是真的,你應該仔細建模。盈虧平衡點取決於你的團隊規模、模型組合以及你的工程師實際處於冪律曲線的哪個位置。但Uber的情況——四個月內燒完年度預算然後使用粗暴上限——背後有一個特定的基礎設施形態:計量的外部API,沒有架構上限。
看看FinOps基金會的資料。兩年前,不到三分之一的組織認為AI支出是FinOps問題。今天接近三分之二。另外三分之一尚未趕上,或者他們決定生產力收益足以證明開放式計量是合理的。第二個立場在一段時間內、在適當的規模下是站得住腳的。據報道,一家公司在未能實施員工使用上限後花費了大約5億美元用於AI。MIT的研究表明,大約95%的企業生成式AI專案在六個月內未能產生可衡量的財務回報。在董事會質疑時,無限支出用於模糊回報是一個難以維持的立場。
對於領先於這一曲線的團隊來說,有效的做法是:建模你特定代理型工作負載的成本(使用上面的數學作為起點),將其與你實際可衡量的生產力回報進行對映,並決定是計量外部支出還是固定自有基礎設施能讓你更好地控制這個比率。不要讓輸入代幣的標價成為你的財務團隊看到的數字。