2026-06-17站内改写2 分鐘閱讀更新: 2026-06-17

AI推理的經濟學

自2024年OpenAI釋出首個推理模型o1以來，推理能力迅速成為AI模型的標配。然而，推理需要大量計算資源，測試時計算（test-time compute）可提升準確率，但也會導致成本激增。文章分析了推理的型別、適用場景及其對效能和成本的影響，指出對於簡單任務關閉推理可顯著降低成本和提高速度。

來源Cerebras Blog

2024年，OpenAI釋出了全球首個推理模型o1，隨後DeepSeek-R1和o3也相繼問世。到2025年，幾乎所有模型都支援了推理能力，無論其開發背景或是否開源。

推理，或稱“思考”、“烹飪”等，在大語言模型（LLM）早期探索工具使用時，已成為一種能力倍增器。o1和o3能夠花費數小時處理問題，並返回高度準確的答案。其技術術語為“測試時計算”（test-time compute），即透過消耗更多計算機處理時間來提升輸出的準確性。模型會生成自我質疑和反覆推敲的語義令牌，最終給出答案。

與此同時，基準測試逐漸飽和，AI在結構化輸出（如工具呼叫）方面取得進展，前沿領域正從聊天式體驗轉向能夠代表使用者行動的智慧體。智慧體軌跡要求模型快速且精確地呼叫工具鏈，而推理有時會妨礙這一過程：模型思考時間越長，留給工具呼叫的空間就越小，容易導致資訊壓縮。

鑑於過去一年中的巨大進步，確定推理的成本及其對效能的影響並非易事。資料顯示，技術性提示的令牌消耗增加了6倍，完成時間延長7至11倍，而啟用推理帶來的效能提升僅為10%至20%。

推理有多種型別：交錯思考（當前標準，模型在工具呼叫之間進行思考並決定下一步行動）、自適應推理（模型自行決定推理程度）和可配置推理（使用者可在低、中、高之間選擇）。推理擅長需要精確步驟的任務，如複雜單次挑戰、謎題、數學邏輯和基準測試目標。

增加思考預算無疑能提升模型效能。例如，GPT-5.5在xHigh模式與低推理模式之間存在約10%的差異，而低推理模式與無推理模式之間也存在約10%的差異。這一規律同樣適用於小型開源模型，如帶推理能力的Qwen-3.6-27B和Gemma-4-31B，它們甚至超越了去年帶推理的SOTA模型Sonnet-4。

平均而言，最大無限制推理可使編碼和智慧體基準測試效能提升約20%，但代價是輸出令牌增加5至10倍，成本高昂。然而，對我個人使用Codex、Claude Code、Droid和Pi智慧體的1000多次AI會話的分析顯示，約一半的提示極其簡單，無需推理即可完成。例如“查詢並開啟應用程式中的x檔案”、“檢查我的電子郵件和日曆”、“克隆並分析此GitHub倉庫”等任務。

因此，將推理視為一個速度或成本控制開關是明智的。Anthropic和OpenAI對1.5至2.5倍速度提升收取2倍費用。但如果透過降低20%的原始智慧就能實現7倍速度提升呢？像Qwen3.6-27B這樣的模型，87.5%以上的令牌用於推理，這意味著我一半時間需要不必要的7倍支出。在記憶體受限環境中，更少的KV快取導致更頻繁的壓縮，每次壓縮都會大幅降低效能。

關閉推理後，智慧體可執行更長時間才需壓縮，賬單也能降低85%。對於時效性任務，如獲取檔案、查詢問題、響應事件、增量更新以及將AI作為系統元件，為20%的效能提升支付高昂代價往往不合理。