AI News HubLIVE
站內改寫1 分鐘閱讀

自適應思考:大語言模型知道何時在隱空間中進行思考

蘋果機器學習研究提出 Sonata,一種輕量級介面卡,透過自我一致性預測來動態分配推理時的思維預算,在保持準確率的同時將思維令牌減少20%至80%,或同等令牌成本下準確率提升5%。

蘋果機器學習研究團隊在2026年4月發表了一篇論文,提出了一種名為Sonata(Self-Consistency-Guided Adapter for Thinking Allocation)的輕量級方法,旨在動態分配大語言模型在推理時的“思考”預算。該方法的核心是利用自洽性(self-consistency)作為判斷查詢是否需要更長時間思考的代理指標。自洽性衡量的是多個推理路徑之間的一致性:當多條路徑的答案分歧較大時,自洽性較低,表明需要更多的推理步數才能得到正確答案。

基於這一洞察,Sonata透過在查詢預填充階段直接提取最後一層隱藏表示,並使用一個離線訓練好的小介面卡預測自洽性分數。這個分數隨後指導LLM動態分配鏈式思維(CoT)的令牌預算:對於自洽性高的簡單查詢,分配較少的思考令牌;對於自洽性低的複雜查詢,則分配更多的思考令牌。該介面卡一旦訓練完成,可以在不同任務間遷移,且推理時幾乎不增加額外計算開銷,因為它僅作用於預填充階段。

研究團隊在多個主流模型上進行了實驗,包括Qwen3-8B、GPT-OSS-120B、Qwen3-235B-A22B和Intern-S1-mini,並在多個數學和推理基準測試(AIME24、AIME25、GSM8K、MATH500、GPQA)上評估了Sonata的效果。結果表明,在保持相同準確率的情況下,Sonata能夠將思考令牌數量減少20%至80%;或者在令牌預算相同時,將準確率提升最高5%。這一方法還與傳統CoT壓縮方法正交,可以結合使用進一步提升效率。

這項研究為實際部署高效推理系統提供了新思路:透過自適應地分配計算資源,避免了對所有查詢採用統一的高成本推理,從而在效能和效率之間取得更好的平衡。論文由Pingzhi Li、Bairu Hou、Yun Zhu等作者完成,並已被ICLR 2026接收。