2026-06-17站内改写2 分鐘閱讀更新: 2026-06-17

AI推理的經濟學

自2024年OpenAI發佈首個推理模型o1以來，推理能力迅速成為AI模型的標配。然而，推理需要大量計算資源，測試時計算（test-time compute）可提升準確率，但也會導致成本激增。文章分析了推理的類型、適用場景及其對性能和成本的影響，指出對於簡單任務關閉推理可顯著降低成本和提高速度。

來源Cerebras Blog

2024年，OpenAI發佈了全球首個推理模型o1，隨後DeepSeek-R1和o3也相繼問世。到2025年，幾乎所有模型都支持了推理能力，無論其開發背景或是否開源。

推理，或稱“思考”、“烹飪”等，在大語言模型（LLM）早期探索工具使用時，已成為一種能力倍增器。o1和o3能夠花費數小時處理問題，並返回高度準確的答案。其技術術語為“測試時計算”（test-time compute），即通過消耗更多計算機處理時間來提升輸出的準確性。模型會生成自我質疑和反覆推敲的語義令牌，最終給出答案。

與此同時，基準測試逐漸飽和，AI在結構化輸出（如工具調用）方面取得進展，前沿領域正從聊天式體驗轉向能夠代表用户行動的智能體。智能體軌跡要求模型快速且精確地調用工具鏈，而推理有時會妨礙這一過程：模型思考時間越長，留給工具調用的空間就越小，容易導致信息壓縮。

鑑於過去一年中的巨大進步，確定推理的成本及其對性能的影響並非易事。數據顯示，技術性提示的令牌消耗增加了6倍，完成時間延長7至11倍，而啓用推理帶來的性能提升僅為10%至20%。

推理有多種類型：交錯思考（當前標準，模型在工具調用之間進行思考並決定下一步行動）、自適應推理（模型自行決定推理程度）和可配置推理（用户可在低、中、高之間選擇）。推理擅長需要精確步驟的任務，如複雜單次挑戰、謎題、數學邏輯和基準測試目標。

增加思考預算無疑能提升模型性能。例如，GPT-5.5在xHigh模式與低推理模式之間存在約10%的差異，而低推理模式與無推理模式之間也存在約10%的差異。這一規律同樣適用於小型開源模型，如帶推理能力的Qwen-3.6-27B和Gemma-4-31B，它們甚至超越了去年帶推理的SOTA模型Sonnet-4。

平均而言，最大無限制推理可使編碼和智能體基準測試性能提升約20%，但代價是輸出令牌增加5至10倍，成本高昂。然而，對我個人使用Codex、Claude Code、Droid和Pi智能體的1000多次AI會話的分析顯示，約一半的提示極其簡單，無需推理即可完成。例如“查找並打開應用程序中的x文件”、“檢查我的電子郵件和日曆”、“克隆並分析此GitHub倉庫”等任務。

因此，將推理視為一個速度或成本控制開關是明智的。Anthropic和OpenAI對1.5至2.5倍速度提升收取2倍費用。但如果通過降低20%的原始智能就能實現7倍速度提升呢？像Qwen3.6-27B這樣的模型，87.5%以上的令牌用於推理，這意味着我一半時間需要不必要的7倍支出。在內存受限環境中，更少的KV緩存導致更頻繁的壓縮，每次壓縮都會大幅降低性能。

關閉推理後，智能體可運行更長時間才需壓縮，賬單也能降低85%。對於時效性任務，如獲取文件、查找問題、響應事件、增量更新以及將AI作為系統組件，為20%的性能提升支付高昂代價往往不合理。