2026-05-28 01:27 UTC+8站內改寫3 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

“Tokenmaxxing 是真實的、昂貴的，而且正在蔓延”：新工具遏制AI預算爆炸

Tokenmaxxing（無節制使用AI token）導致企業預算失控。以Uber為例，其CTO稱AI預算已超支。新興公司Lanai推出Token Tuner工具，通過將token消耗映射到具體工作流程和業務成果，幫助企業優化模型選擇、降低浪費，推動從“tokenmaxxing”向“outcomemaxxing”轉變。

來源The New Stack AI作者: Adrian Bridgwater

對抗tokenmaxxing（無節制使用AI token）的戰鬥中有了新武器。

Tokenmaxxing指的是企業將AI token使用量等同於生產力。然而，token使用量很容易變成虛榮指標，將大量token消耗視為生產力直接標尺的企業，往往無法將token使用與實際成果掛鈎。

作為一種潮流，tokenmaxxing曾風靡一時，但隨着焦點轉向實際成果而非為用AI而用AI，理性聲音正佔據上風。以Uber近期遭遇為例：

Uber CTO Neppalli Naga上個月對《The Information》表示：“我得重新規劃了，因為我以為需要的預算已經被燒光了。”這筆預算原本用於Uber使用Anthropic的Claude Code。

幾周後，Uber COO Andrew Macdonald在《Business Insider》的快速採訪中回應稱，Naga關於預算超支的言論讓運營團隊“頭炸了”。

“大家都覺得‘哦，頭炸了’，”Macdonald説，“我們不得不開始討論token消耗及相關成本與人員成本之間的權衡，並作為工程組織做出取捨。

“如果你無法直接證明這些投入帶來了多少有用的功能交付給用户，這種取捨就難以自圓其説。”

Lanai聯合創始人兼CEO Lexi Reese強調，問題無處不在，Uber只是最新一家高調踩坑的公司。

“Tokenmaxxing是真實的、昂貴的，而且正在從少數工程師或公司蔓延開來，”Reese告訴The New Stack。

Tokenmaxxing可能導致代碼臃腫、代理式AI失控、軟件應用變得脆弱甚至易受攻擊，同時還會增加成本並降低對整個系統狀態的可見性。

Lanai是一家AI問責公司，旨在幫助企業瞭解AI開支發生在哪裏、AI應用於哪些工作流、成本是多少。

該公司最近推出了Token Tuner，用於識別哪些場景可以用低成本模型替代以減少不必要的token開銷。這是開發者和管理者控制工程師及終端用户token使用的最新工具。互聯網上充斥着各種“十大技巧”來減少token使用。Kong、Braintrust、LiteLLM、Dynatrace等公司和組織也提供確保token預算的工具。

Reese及其團隊將Token Tuner定位為填補企業上下文空白的服務，它將token開銷映射到工作流、模型選擇、效率和創造的價值。該軟件將每次AI交互與可衡量的成果綁定，並根據用户為任務匹配的token用量與模型選擇生成生產力評分。

例如，一名員工用Opus 4.7處理郵件回覆，其效率評分很可能低於使用更小模型完成相同任務。

從tokenmaxxing到outcomemaxxing

Reese希望公司轉向outcomemaxxing，分析哪些工作流真正提升了生產力。

目前處於beta階段，Lanai Token Tuner的一位用户將組織中4.2%的AI使用時間進行了委託，卻只用了0.7%的token。其效率評分為6.0，表明該用户為任務匹配了正確模型，而其他人消耗了10倍token，效率卻只有一半。

Lanai首席產品官Mohit Mehta告訴The New Stack，Token Tuner是全地形車——其評分引擎能夠處理單個工作流跨多個模型的情況。

“生產力是通過委託給AI的任務複雜度來估算的，基於Lanai專有模型對提示和工具活動的觀察，”Mehta説，“該模型在提示和工具調用層面運行，獨立於模型和應用程序。”

追蹤商業任務中的AI使用

隨着我們越來越強調技術部署帶來的業務成果（甚至政客近期也開始使用“可衡量成果”這個詞），我們需要思考Token Tuner在API層面需要哪些儀表化措施來將token歸因到具體業務成果。

“Lanai聚合給定會話中的提示交互及相關工具活動，然後運行專有模型計算任務類型、生產力增益和複雜度，”Mehta解釋道，“這使得客户能夠從無上下文的供應商發票，追溯到意圖、價值和成本——在交互層面。這一功能無需自定義儀表化。”

“我們不用合成評估數據，而是利用觀察到的實際成果數據。我們的建議基於組織內真實用户使用不同模型獲得類似結果的實證。”

當Token Tuner推薦低成本模型時，是否有基準來評估輸出質量是否等同？對此，Mehta澄清：“我們不依賴合成評估，而是利用觀察到的成果數據。我們的建議基於組織內真實用户使用不同模型獲得類似結果的實證。

“例如，我們不會簡單説‘這個模型適合你’，而是提供經驗證據：‘你所在團隊用Haiku執行這個工作流時同樣成功。’這是真實世界的大規模偏好，而非合成基準。”

主要功能包括：工作流級價值可見性——顯示哪些團隊、工作流和用例在驅動AI開支，以及這些使用是否與可衡量的業務價值掛鈎；生產力和效率測量——比較token花費與用户、團隊、工作流獲得的槓桿，展示AI每美元創造的最大價值；開支優化推薦——識別失控的工作流、不匹配的任務以及用低成本模型即可處理的場景。

AI的下一個殺手級服務：效率？

最初，地球冷卻時，我們只想要AI……普通的預測性AI就夠了。然後恐龍滅絕了，我們想要領域特定的RAG智能，隨後出現了帶人類監督的智能體AI以防機器人起義。現在，也許我們想要恰到好處的AI——最實用意義上的“適用”，避免在不必要的地方使用，只在真正需要時才開啓高能耗模式。

實際上，AI的下一個殺手級應用遠不止效率，但效率會成為更重要的部分。