2026-06-29 00:13 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-29 00:23 UTC+8

我們追蹤了100萬次LLM API調用——62%用錯了模型

研究發現，62%的LLM API調用使用了過於昂貴的模型。通過模型路由、提示緩存和預算上限，可將成本降低80-95%。

來源Hacker News AI作者: aitoukhrib

一項針對100萬次LLM API調用的分析顯示，62%的調用使用了過於昂貴的模型。Tokonomics平台追蹤了47個租户、9家提供商和數十種模型，發現開發者普遍默認使用GPT-4o處理所有任務，包括客户支持聊天機器人、JSON提取和簡單分類。這種“SELECT *”式的AI開發方式導致大量成本浪費。

為什麼82%的開發者默認使用GPT-4o？2025年Stack Overflow開發者調查顯示，82%的開發者使用OpenAI GPT模型。GPT-4o因其出色的文檔和廣泛的教程成為默認選擇，但原型階段的習慣變成了生產環境的高成本。一項內部測試顯示，將FAQ部分切換到GPT-4o-mini後，成本降低了94%，而質量未受影響。Divyam.AI在2026年將這種模式稱為“LLMflation”，即團隊在更便宜的替代方案出現後仍堅持使用舊模型。

模型選擇帶來的成本差異驚人。以百萬次調用為例，假設每次調用平均500個輸入token和200個輸出token，GPT-4o成本約3,250美元，而DeepSeek V3僅126美元——相差25倍。數據表明，60-70%的SaaS應用API調用可通過預算模型完成，包括意圖分類、結構化數據提取和情感分析。前沿模型僅需保留用於多步推理、複雜代碼生成和多模態任務。

企業AI支出增長迅猛。CloudZero調查顯示，2025年企業月均AI支出從63,000美元升至85,500美元，同比增36%。45%的組織計劃每月支出超過10萬美元，但僅51%能評估AI投資回報率。AI模型價格下降速度（每年50倍）仍趕不上使用量增長。

解決方案包括三個步驟：按任務路由模型（分類任務使用預算模型）、啓用提示緩存（節省50-90%緩存token成本）、設置硬性預算上限防止失控。三者結合可將3,250美元的月賬單降低至300-650美元。建議本週開始審計模型使用情況，從最高流量的低複雜度任務入手切換模型，逐步優化。FAQ中進一步説明：DeepSeek V3輸入成本僅為GPT-4o的1/18；60-70%的調用可使用更便宜的模型；提示緩存可節省50-90%的成本。