2026-06-17站内改写2 分钟阅读更新: 2026-06-17

AI推理的经济学

自2024年OpenAI发布首个推理模型o1以来，推理能力迅速成为AI模型的标配。然而，推理需要大量计算资源，测试时计算（test-time compute）可提升准确率，但也会导致成本激增。文章分析了推理的类型、适用场景及其对性能和成本的影响，指出对于简单任务关闭推理可显著降低成本和提高速度。

来源Cerebras Blog

2024年，OpenAI发布了全球首个推理模型o1，随后DeepSeek-R1和o3也相继问世。到2025年，几乎所有模型都支持了推理能力，无论其开发背景或是否开源。

推理，或称“思考”、“烹饪”等，在大语言模型（LLM）早期探索工具使用时，已成为一种能力倍增器。o1和o3能够花费数小时处理问题，并返回高度准确的答案。其技术术语为“测试时计算”（test-time compute），即通过消耗更多计算机处理时间来提升输出的准确性。模型会生成自我质疑和反复推敲的语义令牌，最终给出答案。

与此同时，基准测试逐渐饱和，AI在结构化输出（如工具调用）方面取得进展，前沿领域正从聊天式体验转向能够代表用户行动的智能体。智能体轨迹要求模型快速且精确地调用工具链，而推理有时会妨碍这一过程：模型思考时间越长，留给工具调用的空间就越小，容易导致信息压缩。

鉴于过去一年中的巨大进步，确定推理的成本及其对性能的影响并非易事。数据显示，技术性提示的令牌消耗增加了6倍，完成时间延长7至11倍，而启用推理带来的性能提升仅为10%至20%。

推理有多种类型：交错思考（当前标准，模型在工具调用之间进行思考并决定下一步行动）、自适应推理（模型自行决定推理程度）和可配置推理（用户可在低、中、高之间选择）。推理擅长需要精确步骤的任务，如复杂单次挑战、谜题、数学逻辑和基准测试目标。

增加思考预算无疑能提升模型性能。例如，GPT-5.5在xHigh模式与低推理模式之间存在约10%的差异，而低推理模式与无推理模式之间也存在约10%的差异。这一规律同样适用于小型开源模型，如带推理能力的Qwen-3.6-27B和Gemma-4-31B，它们甚至超越了去年带推理的SOTA模型Sonnet-4。

平均而言，最大无限制推理可使编码和智能体基准测试性能提升约20%，但代价是输出令牌增加5至10倍，成本高昂。然而，对我个人使用Codex、Claude Code、Droid和Pi智能体的1000多次AI会话的分析显示，约一半的提示极其简单，无需推理即可完成。例如“查找并打开应用程序中的x文件”、“检查我的电子邮件和日历”、“克隆并分析此GitHub仓库”等任务。

因此，将推理视为一个速度或成本控制开关是明智的。Anthropic和OpenAI对1.5至2.5倍速度提升收取2倍费用。但如果通过降低20%的原始智能就能实现7倍速度提升呢？像Qwen3.6-27B这样的模型，87.5%以上的令牌用于推理，这意味着我一半时间需要不必要的7倍支出。在内存受限环境中，更少的KV缓存导致更频繁的压缩，每次压缩都会大幅降低性能。

关闭推理后，智能体可运行更长时间才需压缩，账单也能降低85%。对于时效性任务，如获取文件、查找问题、响应事件、增量更新以及将AI作为系统组件，为20%的性能提升支付高昂代价往往不合理。