我们追踪了100万次LLM API调用——62%用错了模型
研究发现,62%的LLM API调用使用了过于昂贵的模型。通过模型路由、提示缓存和预算上限,可将成本降低80-95%。
一项针对100万次LLM API调用的分析显示,62%的调用使用了过于昂贵的模型。Tokonomics平台追踪了47个租户、9家提供商和数十种模型,发现开发者普遍默认使用GPT-4o处理所有任务,包括客户支持聊天机器人、JSON提取和简单分类。这种“SELECT *”式的AI开发方式导致大量成本浪费。
为什么82%的开发者默认使用GPT-4o?2025年Stack Overflow开发者调查显示,82%的开发者使用OpenAI GPT模型。GPT-4o因其出色的文档和广泛的教程成为默认选择,但原型阶段的习惯变成了生产环境的高成本。一项内部测试显示,将FAQ部分切换到GPT-4o-mini后,成本降低了94%,而质量未受影响。Divyam.AI在2026年将这种模式称为“LLMflation”,即团队在更便宜的替代方案出现后仍坚持使用旧模型。
模型选择带来的成本差异惊人。以百万次调用为例,假设每次调用平均500个输入token和200个输出token,GPT-4o成本约3,250美元,而DeepSeek V3仅126美元——相差25倍。数据表明,60-70%的SaaS应用API调用可通过预算模型完成,包括意图分类、结构化数据提取和情感分析。前沿模型仅需保留用于多步推理、复杂代码生成和多模态任务。
企业AI支出增长迅猛。CloudZero调查显示,2025年企业月均AI支出从63,000美元升至85,500美元,同比增36%。45%的组织计划每月支出超过10万美元,但仅51%能评估AI投资回报率。AI模型价格下降速度(每年50倍)仍赶不上使用量增长。
解决方案包括三个步骤:按任务路由模型(分类任务使用预算模型)、启用提示缓存(节省50-90%缓存token成本)、设置硬性预算上限防止失控。三者结合可将3,250美元的月账单降低至300-650美元。建议本周开始审计模型使用情况,从最高流量的低复杂度任务入手切换模型,逐步优化。FAQ中进一步说明:DeepSeek V3输入成本仅为GPT-4o的1/18;60-70%的调用可使用更便宜的模型;提示缓存可节省50-90%的成本。