2026-06-29 00:13 UTC+8站内改写1 分钟阅读更新: 2026-06-29 00:23 UTC+8

我们追踪了100万次LLM API调用——62%用错了模型

研究发现，62%的LLM API调用使用了过于昂贵的模型。通过模型路由、提示缓存和预算上限，可将成本降低80-95%。

来源Hacker News AI作者: aitoukhrib

一项针对100万次LLM API调用的分析显示，62%的调用使用了过于昂贵的模型。Tokonomics平台追踪了47个租户、9家提供商和数十种模型，发现开发者普遍默认使用GPT-4o处理所有任务，包括客户支持聊天机器人、JSON提取和简单分类。这种“SELECT *”式的AI开发方式导致大量成本浪费。

为什么82%的开发者默认使用GPT-4o？2025年Stack Overflow开发者调查显示，82%的开发者使用OpenAI GPT模型。GPT-4o因其出色的文档和广泛的教程成为默认选择，但原型阶段的习惯变成了生产环境的高成本。一项内部测试显示，将FAQ部分切换到GPT-4o-mini后，成本降低了94%，而质量未受影响。Divyam.AI在2026年将这种模式称为“LLMflation”，即团队在更便宜的替代方案出现后仍坚持使用旧模型。

模型选择带来的成本差异惊人。以百万次调用为例，假设每次调用平均500个输入token和200个输出token，GPT-4o成本约3,250美元，而DeepSeek V3仅126美元——相差25倍。数据表明，60-70%的SaaS应用API调用可通过预算模型完成，包括意图分类、结构化数据提取和情感分析。前沿模型仅需保留用于多步推理、复杂代码生成和多模态任务。

企业AI支出增长迅猛。CloudZero调查显示，2025年企业月均AI支出从63,000美元升至85,500美元，同比增36%。45%的组织计划每月支出超过10万美元，但仅51%能评估AI投资回报率。AI模型价格下降速度（每年50倍）仍赶不上使用量增长。

解决方案包括三个步骤：按任务路由模型（分类任务使用预算模型）、启用提示缓存（节省50-90%缓存token成本）、设置硬性预算上限防止失控。三者结合可将3,250美元的月账单降低至300-650美元。建议本周开始审计模型使用情况，从最高流量的低复杂度任务入手切换模型，逐步优化。FAQ中进一步说明：DeepSeek V3输入成本仅为GPT-4o的1/18；60-70%的调用可使用更便宜的模型；提示缓存可节省50-90%的成本。