我們認為將AI令牌成本轉嫁給客户是錯誤的決定
隨着公司因高額AI使用賬單而限制訪問,Axamy主張採用無上限訂閲模式,將成本優化作為自身責任,並通過架構改進降低運營開支。
最近幾個月,許多企業開始縮減其內部AI工具或AI產品的使用權限。具體案例觸目驚心:一家公司在四個月內燒光了全年的AI編碼預算;另一家公司因未設使用限制,一個月內為一個AI工具花費了50萬美元;個人用户一天內自費數千美元;團隊面臨的賬單遠超預算。對此,常見的反應是限制使用、強制上限甚至完全停止。
這種反應可以理解。但最常見的解決方案——通過按使用量定價將可變令牌成本轉嫁給客户——只會讓問題惡化,而非解決。
當您按令牌或API調用向客户收費時,您只是轉移了成本問題,並未真正解決。客户簽約是為了完成工作,並非管理推理成本。當賬單超出預期時,他們不會考慮消耗了多少令牌,而是思考原本同意的價格與實際收費的差距。這類似於過去的手機超額費用:客户正常使用服務,卻收到意外賬單,憤怒往往指向服務商。您把成本管理難題變成了信任危機。
我們選擇了不同的方向。Axamy採用固定訂閲費,無使用上限。令牌成本是我們的問題,而非客户的。這一決定部分出於客户體驗考量,但也是基於自身利益——我們的人均定價高於許多AI工具,且面向團隊而非個人銷售,這讓我們有更充裕的利潤空間來吸收這些成本。
誠然,無限制模式並非適用於所有企業。當客户使用量差異極大時,某些形式的限制或許有必要,未來我們也可能面臨這種情況。但將令牌成本默認轉嫁給客户,是錯誤的出發點。
更深層的原因是:當令牌賬單落在我們身上時,我們有直接的經濟動力去真正解決成本問題,而非轉嫁。過去兩週,我們的團隊在這方面取得了顯著進展。具體優化包括:
- 提示緩存失效修復:我們發現輪換的預簽名圖片URL導致每次對話都使提示緩存失效——新的URL字符串被視為緩存未命中,迫使完整上下文重寫。我們追蹤到一次失控會話中,42次調用產生了370萬寫入令牌。現已修復。
- 動態上下文重構:將動態狀態移至提示末尾,並設置顯式緩存斷點,使得會話中途的狀態變更僅需數百個重新讀取令牌,而非使整個緩存失效。
- 懶加載:停止在每輪默認注入動作描述。未緩存的令牌從約2000降至每次500,減少了75%。
- 按需上下文擴展:用1000令牌的概要清單替代每輪注入31000令牌的完整計劃,僅在代理真正需要時拉取詳情。
這些優化並非一日之功,但每次改進都會持續降低後續所有會話的成本。當前正在限流或轉嫁成本的公司並非錯了,但限流只是權宜之計,轉嫁則是放棄責任。真正的解決方案是構建架構高效的系統。這項工程雖難,但激勵結構至關重要。由於我們吸收成本而非轉嫁,我們有直接的經濟理由讓系統持續降本。這種客户利益與自身利益的一致性,正是無限制定價真正帶來的價值。