AI News HubLIVE
站内改写2 分鐘閱讀

AI推理的經濟學

自2024年OpenAI釋出首個推理模型o1以來,推理能力迅速成為AI模型的標配。然而,推理需要大量計算資源,測試時計算(test-time compute)可提升準確率,但也會導致成本激增。文章分析了推理的型別、適用場景及其對效能和成本的影響,指出對於簡單任務關閉推理可顯著降低成本和提高速度。

2024年,OpenAI釋出了全球首個推理模型o1,隨後DeepSeek-R1和o3也相繼問世。到2025年,幾乎所有模型都支援了推理能力,無論其開發背景或是否開源。

推理,或稱“思考”、“烹飪”等,在大語言模型(LLM)早期探索工具使用時,已成為一種能力倍增器。o1和o3能夠花費數小時處理問題,並返回高度準確的答案。其技術術語為“測試時計算”(test-time compute),即透過消耗更多計算機處理時間來提升輸出的準確性。模型會生成自我質疑和反覆推敲的語義令牌,最終給出答案。

與此同時,基準測試逐漸飽和,AI在結構化輸出(如工具呼叫)方面取得進展,前沿領域正從聊天式體驗轉向能夠代表使用者行動的智慧體。智慧體軌跡要求模型快速且精確地呼叫工具鏈,而推理有時會妨礙這一過程:模型思考時間越長,留給工具呼叫的空間就越小,容易導致資訊壓縮。

鑑於過去一年中的巨大進步,確定推理的成本及其對效能的影響並非易事。資料顯示,技術性提示的令牌消耗增加了6倍,完成時間延長7至11倍,而啟用推理帶來的效能提升僅為10%至20%。

推理有多種型別:交錯思考(當前標準,模型在工具呼叫之間進行思考並決定下一步行動)、自適應推理(模型自行決定推理程度)和可配置推理(使用者可在低、中、高之間選擇)。推理擅長需要精確步驟的任務,如複雜單次挑戰、謎題、數學邏輯和基準測試目標。

增加思考預算無疑能提升模型效能。例如,GPT-5.5在xHigh模式與低推理模式之間存在約10%的差異,而低推理模式與無推理模式之間也存在約10%的差異。這一規律同樣適用於小型開源模型,如帶推理能力的Qwen-3.6-27B和Gemma-4-31B,它們甚至超越了去年帶推理的SOTA模型Sonnet-4。

平均而言,最大無限制推理可使編碼和智慧體基準測試效能提升約20%,但代價是輸出令牌增加5至10倍,成本高昂。然而,對我個人使用Codex、Claude Code、Droid和Pi智慧體的1000多次AI會話的分析顯示,約一半的提示極其簡單,無需推理即可完成。例如“查詢並開啟應用程式中的x檔案”、“檢查我的電子郵件和日曆”、“克隆並分析此GitHub倉庫”等任務。

因此,將推理視為一個速度或成本控制開關是明智的。Anthropic和OpenAI對1.5至2.5倍速度提升收取2倍費用。但如果透過降低20%的原始智慧就能實現7倍速度提升呢?像Qwen3.6-27B這樣的模型,87.5%以上的令牌用於推理,這意味著我一半時間需要不必要的7倍支出。在記憶體受限環境中,更少的KV快取導致更頻繁的壓縮,每次壓縮都會大幅降低效能。

關閉推理後,智慧體可執行更長時間才需壓縮,賬單也能降低85%。對於時效性任務,如獲取檔案、查詢問題、響應事件、增量更新以及將AI作為系統元件,為20%的效能提升支付高昂代價往往不合理。