AI News HubLIVE
站內改寫1 分鐘閱讀

我們追蹤了100萬次LLM API調用——62%用錯了模型

研究發現,62%的LLM API調用使用了過於昂貴的模型。通過模型路由、提示緩存和預算上限,可將成本降低80-95%。

來源Hacker News AI作者: aitoukhrib

一項針對100萬次LLM API調用的分析顯示,62%的調用使用了過於昂貴的模型。Tokonomics平台追蹤了47個租户、9家提供商和數十種模型,發現開發者普遍默認使用GPT-4o處理所有任務,包括客户支持聊天機器人、JSON提取和簡單分類。這種“SELECT *”式的AI開發方式導致大量成本浪費。

為什麼82%的開發者默認使用GPT-4o?2025年Stack Overflow開發者調查顯示,82%的開發者使用OpenAI GPT模型。GPT-4o因其出色的文檔和廣泛的教程成為默認選擇,但原型階段的習慣變成了生產環境的高成本。一項內部測試顯示,將FAQ部分切換到GPT-4o-mini後,成本降低了94%,而質量未受影響。Divyam.AI在2026年將這種模式稱為“LLMflation”,即團隊在更便宜的替代方案出現後仍堅持使用舊模型。

模型選擇帶來的成本差異驚人。以百萬次調用為例,假設每次調用平均500個輸入token和200個輸出token,GPT-4o成本約3,250美元,而DeepSeek V3僅126美元——相差25倍。數據表明,60-70%的SaaS應用API調用可通過預算模型完成,包括意圖分類、結構化數據提取和情感分析。前沿模型僅需保留用於多步推理、複雜代碼生成和多模態任務。

企業AI支出增長迅猛。CloudZero調查顯示,2025年企業月均AI支出從63,000美元升至85,500美元,同比增36%。45%的組織計劃每月支出超過10萬美元,但僅51%能評估AI投資回報率。AI模型價格下降速度(每年50倍)仍趕不上使用量增長。

解決方案包括三個步驟:按任務路由模型(分類任務使用預算模型)、啓用提示緩存(節省50-90%緩存token成本)、設置硬性預算上限防止失控。三者結合可將3,250美元的月賬單降低至300-650美元。建議本週開始審計模型使用情況,從最高流量的低複雜度任務入手切換模型,逐步優化。FAQ中進一步説明:DeepSeek V3輸入成本僅為GPT-4o的1/18;60-70%的調用可使用更便宜的模型;提示緩存可節省50-90%的成本。