“Tokenmaxxing 是真實的、昂貴的,而且正在蔓延”:新工具遏制AI預算爆炸
Tokenmaxxing(無節制使用AI token)導致企業預算失控。以Uber為例,其CTO稱AI預算已超支。新興公司Lanai推出Token Tuner工具,通過將token消耗映射到具體工作流程和業務成果,幫助企業優化模型選擇、降低浪費,推動從“tokenmaxxing”向“outcomemaxxing”轉變。
文章情報
要點
- Tokenmaxxing使企業AI預算爆炸,Uber等公司已出現嚴重超支。
- Lanai推出Token Tuner,通過追蹤token與工作流程、成果的關聯,提供效率評分和模型推薦。
- 強調“outcomemaxxing”,即關注實際業務產出而非單純token使用量。
為甚麼重要
這條新聞值得關注,因為Tokenmaxxing使企業AI預算爆炸,Uber等公司已出現嚴重超支。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
對抗tokenmaxxing(無節制使用AI token)的戰鬥中有了新武器。
Tokenmaxxing指的是企業將AI token使用量等同於生產力。然而,token使用量很容易變成虛榮指標,將大量token消耗視為生產力直接標尺的企業,往往無法將token使用與實際成果掛鈎。
作為一種潮流,tokenmaxxing曾風靡一時,但隨着焦點轉向實際成果而非為用AI而用AI,理性聲音正佔據上風。以Uber近期遭遇為例:
Uber CTO Neppalli Naga上個月對《The Information》表示:“我得重新規劃了,因為我以為需要的預算已經被燒光了。”這筆預算原本用於Uber使用Anthropic的Claude Code。
幾周後,Uber COO Andrew Macdonald在《Business Insider》的快速採訪中回應稱,Naga關於預算超支的言論讓運營團隊“頭炸了”。
“大家都覺得‘哦,頭炸了’,”Macdonald説,“我們不得不開始討論token消耗及相關成本與人員成本之間的權衡,並作為工程組織做出取捨。
“如果你無法直接證明這些投入帶來了多少有用的功能交付給用户,這種取捨就難以自圓其説。”
Lanai聯合創始人兼CEO Lexi Reese強調,問題無處不在,Uber只是最新一家高調踩坑的公司。
“Tokenmaxxing是真實的、昂貴的,而且正在從少數工程師或公司蔓延開來,”Reese告訴The New Stack。
Tokenmaxxing可能導致代碼臃腫、代理式AI失控、軟件應用變得脆弱甚至易受攻擊,同時還會增加成本並降低對整個系統狀態的可見性。
Lanai是一家AI問責公司,旨在幫助企業瞭解AI開支發生在哪裏、AI應用於哪些工作流、成本是多少。
該公司最近推出了Token Tuner,用於識別哪些場景可以用低成本模型替代以減少不必要的token開銷。這是開發者和管理者控制工程師及終端用户token使用的最新工具。互聯網上充斥着各種“十大技巧”來減少token使用。Kong、Braintrust、LiteLLM、Dynatrace等公司和組織也提供確保token預算的工具。
Reese及其團隊將Token Tuner定位為填補企業上下文空白的服務,它將token開銷映射到工作流、模型選擇、效率和創造的價值。該軟件將每次AI交互與可衡量的成果綁定,並根據用户為任務匹配的token用量與模型選擇生成生產力評分。
例如,一名員工用Opus 4.7處理郵件回覆,其效率評分很可能低於使用更小模型完成相同任務。
從tokenmaxxing到outcomemaxxing
Reese希望公司轉向outcomemaxxing,分析哪些工作流真正提升了生產力。
目前處於beta階段,Lanai Token Tuner的一位用户將組織中4.2%的AI使用時間進行了委託,卻只用了0.7%的token。其效率評分為6.0,表明該用户為任務匹配了正確模型,而其他人消耗了10倍token,效率卻只有一半。
Lanai首席產品官Mohit Mehta告訴The New Stack,Token Tuner是全地形車——其評分引擎能夠處理單個工作流跨多個模型的情況。
“生產力是通過委託給AI的任務複雜度來估算的,基於Lanai專有模型對提示和工具活動的觀察,”Mehta説,“該模型在提示和工具調用層面運行,獨立於模型和應用程序。”
追蹤商業任務中的AI使用
隨着我們越來越強調技術部署帶來的業務成果(甚至政客近期也開始使用“可衡量成果”這個詞),我們需要思考Token Tuner在API層面需要哪些儀表化措施來將token歸因到具體業務成果。
“Lanai聚合給定會話中的提示交互及相關工具活動,然後運行專有模型計算任務類型、生產力增益和複雜度,”Mehta解釋道,“這使得客户能夠從無上下文的供應商發票,追溯到意圖、價值和成本——在交互層面。這一功能無需自定義儀表化。”
“我們不用合成評估數據,而是利用觀察到的實際成果數據。我們的建議基於組織內真實用户使用不同模型獲得類似結果的實證。”
當Token Tuner推薦低成本模型時,是否有基準來評估輸出質量是否等同?對此,Mehta澄清:“我們不依賴合成評估,而是利用觀察到的成果數據。我們的建議基於組織內真實用户使用不同模型獲得類似結果的實證。
“例如,我們不會簡單説‘這個模型適合你’,而是提供經驗證據:‘你所在團隊用Haiku執行這個工作流時同樣成功。’這是真實世界的大規模偏好,而非合成基準。”
主要功能包括:工作流級價值可見性——顯示哪些團隊、工作流和用例在驅動AI開支,以及這些使用是否與可衡量的業務價值掛鈎;生產力和效率測量——比較token花費與用户、團隊、工作流獲得的槓桿,展示AI每美元創造的最大價值;開支優化推薦——識別失控的工作流、不匹配的任務以及用低成本模型即可處理的場景。
AI的下一個殺手級服務:效率?
最初,地球冷卻時,我們只想要AI……普通的預測性AI就夠了。然後恐龍滅絕了,我們想要領域特定的RAG智能,隨後出現了帶人類監督的智能體AI以防機器人起義。現在,也許我們想要恰到好處的AI——最實用意義上的“適用”,避免在不必要的地方使用,只在真正需要時才開啓高能耗模式。
實際上,AI的下一個殺手級應用遠不止效率,但效率會成為更重要的部分。