AI News HubLIVE
站內改寫1 分鐘閱讀

我們追蹤了100萬次LLM API呼叫——62%用錯了模型

研究發現,62%的LLM API呼叫使用了過於昂貴的模型。透過模型路由、提示快取和預算上限,可將成本降低80-95%。

來源Hacker News AI作者: aitoukhrib

一項針對100萬次LLM API呼叫的分析顯示,62%的呼叫使用了過於昂貴的模型。Tokonomics平臺追蹤了47個租戶、9家提供商和數十種模型,發現開發者普遍預設使用GPT-4o處理所有任務,包括客戶支援聊天機器人、JSON提取和簡單分類。這種“SELECT *”式的AI開發方式導致大量成本浪費。

為什麼82%的開發者預設使用GPT-4o?2025年Stack Overflow開發者調查顯示,82%的開發者使用OpenAI GPT模型。GPT-4o因其出色的文件和廣泛的教程成為預設選擇,但原型階段的習慣變成了生產環境的高成本。一項內部測試顯示,將FAQ部分切換到GPT-4o-mini後,成本降低了94%,而質量未受影響。Divyam.AI在2026年將這種模式稱為“LLMflation”,即團隊在更便宜的替代方案出現後仍堅持使用舊模型。

模型選擇帶來的成本差異驚人。以百萬次呼叫為例,假設每次呼叫平均500個輸入token和200個輸出token,GPT-4o成本約3,250美元,而DeepSeek V3僅126美元——相差25倍。資料表明,60-70%的SaaS應用API呼叫可透過預算模型完成,包括意圖分類、結構化資料提取和情感分析。前沿模型僅需保留用於多步推理、複雜程式碼生成和多模態任務。

企業AI支出增長迅猛。CloudZero調查顯示,2025年企業月均AI支出從63,000美元升至85,500美元,同比增36%。45%的組織計劃每月支出超過10萬美元,但僅51%能評估AI投資回報率。AI模型價格下降速度(每年50倍)仍趕不上使用量增長。

解決方案包括三個步驟:按任務路由模型(分類任務使用預算模型)、啟用提示快取(節省50-90%快取token成本)、設定硬性預算上限防止失控。三者結合可將3,250美元的月賬單降低至300-650美元。建議本週開始審計模型使用情況,從最高流量的低複雜度任務入手切換模型,逐步最佳化。FAQ中進一步說明:DeepSeek V3輸入成本僅為GPT-4o的1/18;60-70%的呼叫可使用更便宜的模型;提示快取可節省50-90%的成本。

我們追蹤了100萬次LLM API呼叫——62%用錯了模型 | AI News Hub