2026-06-29 00:13 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-29 00:23 UTC+8

我們追蹤了100萬次LLM API呼叫——62%用錯了模型

研究發現，62%的LLM API呼叫使用了過於昂貴的模型。透過模型路由、提示快取和預算上限，可將成本降低80-95%。

來源Hacker News AI作者: aitoukhrib

一項針對100萬次LLM API呼叫的分析顯示，62%的呼叫使用了過於昂貴的模型。Tokonomics平臺追蹤了47個租戶、9家提供商和數十種模型，發現開發者普遍預設使用GPT-4o處理所有任務，包括客戶支援聊天機器人、JSON提取和簡單分類。這種“SELECT *”式的AI開發方式導致大量成本浪費。

為什麼82%的開發者預設使用GPT-4o？2025年Stack Overflow開發者調查顯示，82%的開發者使用OpenAI GPT模型。GPT-4o因其出色的文件和廣泛的教程成為預設選擇，但原型階段的習慣變成了生產環境的高成本。一項內部測試顯示，將FAQ部分切換到GPT-4o-mini後，成本降低了94%，而質量未受影響。Divyam.AI在2026年將這種模式稱為“LLMflation”，即團隊在更便宜的替代方案出現後仍堅持使用舊模型。

模型選擇帶來的成本差異驚人。以百萬次呼叫為例，假設每次呼叫平均500個輸入token和200個輸出token，GPT-4o成本約3,250美元，而DeepSeek V3僅126美元——相差25倍。資料表明，60-70%的SaaS應用API呼叫可透過預算模型完成，包括意圖分類、結構化資料提取和情感分析。前沿模型僅需保留用於多步推理、複雜程式碼生成和多模態任務。

企業AI支出增長迅猛。CloudZero調查顯示，2025年企業月均AI支出從63,000美元升至85,500美元，同比增36%。45%的組織計劃每月支出超過10萬美元，但僅51%能評估AI投資回報率。AI模型價格下降速度（每年50倍）仍趕不上使用量增長。

解決方案包括三個步驟：按任務路由模型（分類任務使用預算模型）、啟用提示快取（節省50-90%快取token成本）、設定硬性預算上限防止失控。三者結合可將3,250美元的月賬單降低至300-650美元。建議本週開始審計模型使用情況，從最高流量的低複雜度任務入手切換模型，逐步最佳化。FAQ中進一步說明：DeepSeek V3輸入成本僅為GPT-4o的1/18；60-70%的呼叫可使用更便宜的模型；提示快取可節省50-90%的成本。