AI推理的經濟學
自2024年OpenAI發佈首個推理模型o1以來,推理能力迅速成為AI模型的標配。然而,推理需要大量計算資源,測試時計算(test-time compute)可提升準確率,但也會導致成本激增。文章分析了推理的類型、適用場景及其對性能和成本的影響,指出對於簡單任務關閉推理可顯著降低成本和提高速度。
2024年,OpenAI發佈了全球首個推理模型o1,隨後DeepSeek-R1和o3也相繼問世。到2025年,幾乎所有模型都支持了推理能力,無論其開發背景或是否開源。
推理,或稱“思考”、“烹飪”等,在大語言模型(LLM)早期探索工具使用時,已成為一種能力倍增器。o1和o3能夠花費數小時處理問題,並返回高度準確的答案。其技術術語為“測試時計算”(test-time compute),即通過消耗更多計算機處理時間來提升輸出的準確性。模型會生成自我質疑和反覆推敲的語義令牌,最終給出答案。
與此同時,基準測試逐漸飽和,AI在結構化輸出(如工具調用)方面取得進展,前沿領域正從聊天式體驗轉向能夠代表用户行動的智能體。智能體軌跡要求模型快速且精確地調用工具鏈,而推理有時會妨礙這一過程:模型思考時間越長,留給工具調用的空間就越小,容易導致信息壓縮。
鑑於過去一年中的巨大進步,確定推理的成本及其對性能的影響並非易事。數據顯示,技術性提示的令牌消耗增加了6倍,完成時間延長7至11倍,而啓用推理帶來的性能提升僅為10%至20%。
推理有多種類型:交錯思考(當前標準,模型在工具調用之間進行思考並決定下一步行動)、自適應推理(模型自行決定推理程度)和可配置推理(用户可在低、中、高之間選擇)。推理擅長需要精確步驟的任務,如複雜單次挑戰、謎題、數學邏輯和基準測試目標。
增加思考預算無疑能提升模型性能。例如,GPT-5.5在xHigh模式與低推理模式之間存在約10%的差異,而低推理模式與無推理模式之間也存在約10%的差異。這一規律同樣適用於小型開源模型,如帶推理能力的Qwen-3.6-27B和Gemma-4-31B,它們甚至超越了去年帶推理的SOTA模型Sonnet-4。
平均而言,最大無限制推理可使編碼和智能體基準測試性能提升約20%,但代價是輸出令牌增加5至10倍,成本高昂。然而,對我個人使用Codex、Claude Code、Droid和Pi智能體的1000多次AI會話的分析顯示,約一半的提示極其簡單,無需推理即可完成。例如“查找並打開應用程序中的x文件”、“檢查我的電子郵件和日曆”、“克隆並分析此GitHub倉庫”等任務。
因此,將推理視為一個速度或成本控制開關是明智的。Anthropic和OpenAI對1.5至2.5倍速度提升收取2倍費用。但如果通過降低20%的原始智能就能實現7倍速度提升呢?像Qwen3.6-27B這樣的模型,87.5%以上的令牌用於推理,這意味着我一半時間需要不必要的7倍支出。在內存受限環境中,更少的KV緩存導致更頻繁的壓縮,每次壓縮都會大幅降低性能。
關閉推理後,智能體可運行更長時間才需壓縮,賬單也能降低85%。對於時效性任務,如獲取文件、查找問題、響應事件、增量更新以及將AI作為系統組件,為20%的性能提升支付高昂代價往往不合理。