自适应思考:大语言模型知道何时在隐空间中进行思考
苹果机器学习研究提出 Sonata,一种轻量级适配器,通过自我一致性预测来动态分配推理时的思维预算,在保持准确率的同时将思维令牌减少20%至80%,或同等令牌成本下准确率提升5%。
苹果机器学习研究团队在2026年4月发表了一篇论文,提出了一种名为Sonata(Self-Consistency-Guided Adapter for Thinking Allocation)的轻量级方法,旨在动态分配大语言模型在推理时的“思考”预算。该方法的核心是利用自洽性(self-consistency)作为判断查询是否需要更长时间思考的代理指标。自洽性衡量的是多个推理路径之间的一致性:当多条路径的答案分歧较大时,自洽性较低,表明需要更多的推理步数才能得到正确答案。
基于这一洞察,Sonata通过在查询预填充阶段直接提取最后一层隐藏表示,并使用一个离线训练好的小适配器预测自洽性分数。这个分数随后指导LLM动态分配链式思维(CoT)的令牌预算:对于自洽性高的简单查询,分配较少的思考令牌;对于自洽性低的复杂查询,则分配更多的思考令牌。该适配器一旦训练完成,可以在不同任务间迁移,且推理时几乎不增加额外计算开销,因为它仅作用于预填充阶段。
研究团队在多个主流模型上进行了实验,包括Qwen3-8B、GPT-OSS-120B、Qwen3-235B-A22B和Intern-S1-mini,并在多个数学和推理基准测试(AIME24、AIME25、GSM8K、MATH500、GPQA)上评估了Sonata的效果。结果表明,在保持相同准确率的情况下,Sonata能够将思考令牌数量减少20%至80%;或者在令牌预算相同时,将准确率提升最高5%。这一方法还与传统CoT压缩方法正交,可以结合使用进一步提升效率。
这项研究为实际部署高效推理系统提供了新思路:通过自适应地分配计算资源,避免了对所有查询采用统一的高成本推理,从而在性能和效率之间取得更好的平衡。论文由Pingzhi Li、Bairu Hou、Yun Zhu等作者完成,并已被ICLR 2026接收。