AI推理的经济学
自2024年OpenAI发布首个推理模型o1以来,推理能力迅速成为AI模型的标配。然而,推理需要大量计算资源,测试时计算(test-time compute)可提升准确率,但也会导致成本激增。文章分析了推理的类型、适用场景及其对性能和成本的影响,指出对于简单任务关闭推理可显著降低成本和提高速度。
2024年,OpenAI发布了全球首个推理模型o1,随后DeepSeek-R1和o3也相继问世。到2025年,几乎所有模型都支持了推理能力,无论其开发背景或是否开源。
推理,或称“思考”、“烹饪”等,在大语言模型(LLM)早期探索工具使用时,已成为一种能力倍增器。o1和o3能够花费数小时处理问题,并返回高度准确的答案。其技术术语为“测试时计算”(test-time compute),即通过消耗更多计算机处理时间来提升输出的准确性。模型会生成自我质疑和反复推敲的语义令牌,最终给出答案。
与此同时,基准测试逐渐饱和,AI在结构化输出(如工具调用)方面取得进展,前沿领域正从聊天式体验转向能够代表用户行动的智能体。智能体轨迹要求模型快速且精确地调用工具链,而推理有时会妨碍这一过程:模型思考时间越长,留给工具调用的空间就越小,容易导致信息压缩。
鉴于过去一年中的巨大进步,确定推理的成本及其对性能的影响并非易事。数据显示,技术性提示的令牌消耗增加了6倍,完成时间延长7至11倍,而启用推理带来的性能提升仅为10%至20%。
推理有多种类型:交错思考(当前标准,模型在工具调用之间进行思考并决定下一步行动)、自适应推理(模型自行决定推理程度)和可配置推理(用户可在低、中、高之间选择)。推理擅长需要精确步骤的任务,如复杂单次挑战、谜题、数学逻辑和基准测试目标。
增加思考预算无疑能提升模型性能。例如,GPT-5.5在xHigh模式与低推理模式之间存在约10%的差异,而低推理模式与无推理模式之间也存在约10%的差异。这一规律同样适用于小型开源模型,如带推理能力的Qwen-3.6-27B和Gemma-4-31B,它们甚至超越了去年带推理的SOTA模型Sonnet-4。
平均而言,最大无限制推理可使编码和智能体基准测试性能提升约20%,但代价是输出令牌增加5至10倍,成本高昂。然而,对我个人使用Codex、Claude Code、Droid和Pi智能体的1000多次AI会话的分析显示,约一半的提示极其简单,无需推理即可完成。例如“查找并打开应用程序中的x文件”、“检查我的电子邮件和日历”、“克隆并分析此GitHub仓库”等任务。
因此,将推理视为一个速度或成本控制开关是明智的。Anthropic和OpenAI对1.5至2.5倍速度提升收取2倍费用。但如果通过降低20%的原始智能就能实现7倍速度提升呢?像Qwen3.6-27B这样的模型,87.5%以上的令牌用于推理,这意味着我一半时间需要不必要的7倍支出。在内存受限环境中,更少的KV缓存导致更频繁的压缩,每次压缩都会大幅降低性能。
关闭推理后,智能体可运行更长时间才需压缩,账单也能降低85%。对于时效性任务,如获取文件、查找问题、响应事件、增量更新以及将AI作为系统组件,为20%的性能提升支付高昂代价往往不合理。