AI News HubLIVE
站内改写2 分鐘閱讀

我們認為將AI令牌成本轉嫁給客戶是錯誤的決定

隨著公司因高額AI使用賬單而限制訪問,Axamy主張採用無上限訂閱模式,將成本最佳化作為自身責任,並透過架構改進降低運營開支。

來源Hacker News AI作者: jhonovich

最近幾個月,許多企業開始縮減其內部AI工具或AI產品的使用許可權。具體案例觸目驚心:一家公司在四個月內燒光了全年的AI編碼預算;另一家公司因未設使用限制,一個月內為一個AI工具花費了50萬美元;個人使用者一天內自費數千美元;團隊面臨的賬單遠超預算。對此,常見的反應是限制使用、強制上限甚至完全停止。

這種反應可以理解。但最常見的解決方案——透過按使用量定價將可變令牌成本轉嫁給客戶——只會讓問題惡化,而非解決。

當您按令牌或API呼叫向客戶收費時,您只是轉移了成本問題,並未真正解決。客戶簽約是為了完成工作,並非管理推理成本。當賬單超出預期時,他們不會考慮消耗了多少令牌,而是思考原本同意的價格與實際收費的差距。這類似於過去的手機超額費用:客戶正常使用服務,卻收到意外賬單,憤怒往往指向服務商。您把成本管理難題變成了信任危機。

我們選擇了不同的方向。Axamy採用固定訂閱費,無使用上限。令牌成本是我們的問題,而非客戶的。這一決定部分出於客戶體驗考量,但也是基於自身利益——我們的人均定價高於許多AI工具,且面向團隊而非個人銷售,這讓我們有更充裕的利潤空間來吸收這些成本。

誠然,無限制模式並非適用於所有企業。當客戶使用量差異極大時,某些形式的限制或許有必要,未來我們也可能面臨這種情況。但將令牌成本預設轉嫁給客戶,是錯誤的出發點。

更深層的原因是:當令牌賬單落在我們身上時,我們有直接的經濟動力去真正解決成本問題,而非轉嫁。過去兩週,我們的團隊在這方面取得了顯著進展。具體最佳化包括:

  • 提示快取失效修復:我們發現輪換的預簽名圖片URL導致每次對話都使提示快取失效——新的URL字串被視為快取未命中,迫使完整上下文重寫。我們追蹤到一次失控會話中,42次呼叫產生了370萬寫入令牌。現已修復。
  • 動態上下文重構:將動態狀態移至提示末尾,並設定顯式快取斷點,使得會話中途的狀態變更僅需數百個重新讀取令牌,而非使整個快取失效。
  • 懶載入:停止在每輪預設注入動作描述。未快取的令牌從約2000降至每次500,減少了75%。
  • 按需上下文擴充套件:用1000令牌的概要清單替代每輪注入31000令牌的完整計劃,僅在代理真正需要時拉取詳情。

這些最佳化並非一日之功,但每次改進都會持續降低後續所有會話的成本。當前正在限流或轉嫁成本的公司並非錯了,但限流只是權宜之計,轉嫁則是放棄責任。真正的解決方案是構建架構高效的系統。這項工程雖難,但激勵結構至關重要。由於我們吸收成本而非轉嫁,我們有直接的經濟理由讓系統持續降本。這種客戶利益與自身利益的一致性,正是無限制定價真正帶來的價值。