2026-04-29 08:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

自適應思考：大語言模型知道何時在隱空間中進行思考

蘋果機器學習研究提出 Sonata，一種輕量級介面卡，透過自我一致性預測來動態分配推理時的思維預算，在保持準確率的同時將思維令牌減少20%至80%，或同等令牌成本下準確率提升5%。

蘋果機器學習研究團隊在2026年4月發表了一篇論文，提出了一種名為Sonata（Self-Consistency-Guided Adapter for Thinking Allocation）的輕量級方法，旨在動態分配大語言模型在推理時的“思考”預算。該方法的核心是利用自洽性（self-consistency）作為判斷查詢是否需要更長時間思考的代理指標。自洽性衡量的是多個推理路徑之間的一致性：當多條路徑的答案分歧較大時，自洽性較低，表明需要更多的推理步數才能得到正確答案。

基於這一洞察，Sonata透過在查詢預填充階段直接提取最後一層隱藏表示，並使用一個離線訓練好的小介面卡預測自洽性分數。這個分數隨後指導LLM動態分配鏈式思維（CoT）的令牌預算：對於自洽性高的簡單查詢，分配較少的思考令牌；對於自洽性低的複雜查詢，則分配更多的思考令牌。該介面卡一旦訓練完成，可以在不同任務間遷移，且推理時幾乎不增加額外計算開銷，因為它僅作用於預填充階段。

研究團隊在多個主流模型上進行了實驗，包括Qwen3-8B、GPT-OSS-120B、Qwen3-235B-A22B和Intern-S1-mini，並在多個數學和推理基準測試（AIME24、AIME25、GSM8K、MATH500、GPQA）上評估了Sonata的效果。結果表明，在保持相同準確率的情況下，Sonata能夠將思考令牌數量減少20%至80%；或者在令牌預算相同時，將準確率提升最高5%。這一方法還與傳統CoT壓縮方法正交，可以結合使用進一步提升效率。

這項研究為實際部署高效推理系統提供了新思路：透過自適應地分配計算資源，避免了對所有查詢採用統一的高成本推理，從而在效能和效率之間取得更好的平衡。論文由Pingzhi Li、Bairu Hou、Yun Zhu等作者完成，並已被ICLR 2026接收。