Token資本效率
企業如何通過定義任務、匹配模型、測量效果來提升在AI投入上的資本效率,降低成本並提高回報。
Satya Nadella 最近發表了一篇關於AI驅動經濟中未來企業形態的文章,並引入了“Token資本”的概念,它現在與人力資本和金融資本並存。一個自然的延伸是“Token資本效率”,即組織每投資一美元在Token上所能獲得的商業價值;具體而言,是產生的價值除以消耗的Token數量乘以其價格,涵蓋推理、任務執行和學習。更高的效率來自於從每個Token中提取更多價值,為每個結果消耗更少的Token,或以更低的成本獲取Token。這直接依賴於企業的一種新動態:組織如何將有價值的知識工作表示為LLM能夠可靠處理的Token。
幾乎沒有任何公司目前是Token資本高效的。大家都在摸索中前進,往往損害了技術預算。大約18個月內,我們從Token最大化循環到了Token支出反彈。CFO和董事會面對意外賬單開始質疑。核心矛盾在於公司急於“做AI”與財務責任之間的衝突。這項技術的使用模式不同於其他企業軟件,因為它既無處不在又通常按使用量計費。加之進展速度,每個人都自動默認使用最好的模型,希望無論任務如何都能獲得最佳性能。
大多數組織正在推動每個用户儘可能多地使用AI,無論其技術成熟度如何。這沒問題;99%的用户不必知道Opus級和Haiku級模型之間的能力差異,但在企業規模上存在顯著差異。但“儘可能使用AI”的指令沒有邊界或治理,正是導致賬單膨脹且回報不明確的原因。這種方法還遭受結果可變性,因為人們常常寫兩句話的提示並希望得到最佳結果。
我們正處於模型變得如此優秀的階段,以至於前沿與“商品化”AI使用的需求出現了分化。前沿能力對於探索真正的未知、規劃複雜活動和更高級的推理很有用。對於更常見、定義明確的任務,前沿模型可能大材小用。本文涵蓋了針對結構化、理解充分的任務可能採取的方法。
最明顯的方法是匹配任務複雜度與模型能力。但要做到這一點,任務本身需要被充分理解。通過花時間定義有意義的任務,您可以顯著提高Token資本效率(即同時降低成本並改善結果)。
設想我們讓計算機做某事的每種方式作為一個單一譜系,從完全確定性到完全概率性。最左邊是傳統的計算機程序:公式化、確定性且可測量。向右移動,您用靈活性換取確定性,將更多的“如何做”交給模型——先是規範,然後是工作流,再是“輕推”——直到最右邊是原始LLM提示:最大靈活性,最小保證。關鍵點在於“做什麼”從未消失。您總是有一個意圖;即您想要實現什麼。只有“如何做”的規範在向右移動時逐漸消失。
大多數企業用户和Token最大化者生活在右邊:將一切都委託給模型。對於某些工作來説,這是一個合理的地方。例如,編碼代理非常適合,因為成熟的代碼庫以測試的形式給模型提供約束。失敗的測試是一個邊界。如今大多數知識工作沒有這樣的邊界,至少沒有數字化的測試,這就是結果可變性和相關挫敗感的來源。
但是知識工作者執行的許多任務可以具有明確定義的邊界,從而可以在圖表上向左移動並大幅提高Token資本效率。做好這一點歸結為一系列步驟:定義任務、匹配模型、測量結果,然後優化。將複雜流程分解為離散任務可減少變異性。
一個有效的離散任務通常是一組定義明確的輸入,可能包括某些標準或流程步驟,以及一組期望的輸出,使得您可以測量輸出的可接受性。例如,假設我要檢查一張發票並提取特定行項目的關鍵詳細信息,輸出格式可放入數據庫並進行編程處理。我可以給人類一個PDF和一個電子表格,或者我可以將它們扔給Claude並概述目標和期望輸出。兩者在變異性、一致性、速度和成本方面都有一些權衡。除非您詳盡地寫下過程中的每一步,否則規範中幾乎總會有差距;沒有反饋機制,且這是運行業務流程的繁瑣方式。最重要的是,您提示中留下的任何差距都可能導致輸出中的潛在變異性。
通過將概率核心包裹在確定性外殼中,您可以利用模型的力量在“中間”做困難的工作,同時保留以一致方式理解和監控過程輸入和輸出的能力。模型的包裹很重要,因為您指定的越少,模型就越需要“即興發揮”,對於LLM而言,這趨向於其訓練數據的平均值。Anthropic的Thariq説得很好:“你留下的每一個空白,Claude都會用分佈內的選擇來填充。”
在如何指定輸入、輸出和過程方面做到徹底,也成為一個複合差異因素:您定義和構建評估的每套任務都成為您擁有的東西。這是使您的公司獨特的知識產權和經驗。評估是您能夠知道對於給定的一組輸入,過程提供了可接受的輸出質量並按預期運行的機制。同樣重要的是,知識產權是可組合的。代理可以開始串聯經過考驗的任務,而無需每次都重新發明輪子(並花費Token)。
通過測量來匹配正確的模型
有了任務定義,最初的問題又回來了:應該用哪個模型?誘惑是憑聲譽或基準來回答。選擇前沿模型然後繼續。但聲譽或分數不足以為決策提供足夠信息。更有效的方法是根據您剛剛定義的任務測量候選模型。至少有兩個可測量的維度:能力和成本。如果您沒有定義任務,就無法測量其成功率。如果無法測量成功,兩件事隨之而來:您無法以CFO能接受的任何規模量化結果(或回報),並且您無法在保持可接受的性能水平的同時更換模型,因為您從未首先定義您將持守的性能標準。這就是Satya最近提出的觀點:“公司應該能夠切換‘通才’模型,而不會失去其學習系統中建立的‘公司專家’專業知識。”
構建一個捕獲您IP的腳手架有機會,這樣您就不會覺得總是要默認使用最新或最大的模型。這雙向起作用——您可以沿着成本曲線下移,也可以“搭便車”享受更好模型的改進,而無需每次都重新設計工作流,因為它已經被定義。一旦您有了評估結果的能力,您可以有效地沿着成本曲線下移,但前提是您能夠確定您的業務容忍水平。公共基準是好的方向指標,但對於模型在您會計部門內執行工作流的能力沒有任何説明。在您的特定任務上,評估成為您的IP,因為它是測量模型性能的邊界。這正是Satya所説的:公司的私有評估應跟蹤對業務重要結果的改進。
一切都是優化問題
一旦您有了任務定義和評估來評分,一切都變成優化問題。您可以沿着成本曲線下移:更小的模型、更緊湊的提示、更少的腳手架。您一直走下去,直到性能超過您最初設定的容忍水平(例如,我可以接受分類任務97%的準確率)。這個交叉點就是您的停止點,如果做得正確,您可能節省一個數量級的成本。沒有規範和評估,您甚至看不到這個圖表。那時您只是在猜測並希望賬單下降。
一個自然的起點是使用模型提供的東西,通過提示優化實現——這不是您手工完成的事情。使用像@DSPyOSS + GEPA這樣的框架和技術,您可以a)以可維護、可測量的方式構建任務,以及b)自動識別哪些更便宜的模型在可接受的準確度下適用於您的用例。對於某些高容量且理解充分的過程,微調或強化學習開始變得更加合理。
您能測量您的Token資本效率嗎?
可能聽起來很明顯,但能夠創建用於運營業務的有價值任務和評估清單的公司將在短期內節省成本,更重要的是,他們將能夠做到Satya指出的最重要的事情:建立“學習循環,使人力資本和Token資本複合增長”。組織是大型複合系統,員工執行任務作為其工作的一部分,以追求一些總體目標。學會創建重要工作數字清單的組織不僅會在AI時代比競爭對手花費更少,他們還將受益於複合知識、模型能力和成本改進,而競爭對手則從頭重寫提示。那些具有高Token資本效率的組織將獲勝。