2026-04-29 08:00 UTC+8站内改写1 分钟阅读更新: 2026-06-27 08:25 UTC+8

自适应思考：大语言模型知道何时在隐空间中进行思考

苹果机器学习研究提出 Sonata，一种轻量级适配器，通过自我一致性预测来动态分配推理时的思维预算，在保持准确率的同时将思维令牌减少20%至80%，或同等令牌成本下准确率提升5%。

苹果机器学习研究团队在2026年4月发表了一篇论文，提出了一种名为Sonata（Self-Consistency-Guided Adapter for Thinking Allocation）的轻量级方法，旨在动态分配大语言模型在推理时的“思考”预算。该方法的核心是利用自洽性（self-consistency）作为判断查询是否需要更长时间思考的代理指标。自洽性衡量的是多个推理路径之间的一致性：当多条路径的答案分歧较大时，自洽性较低，表明需要更多的推理步数才能得到正确答案。

基于这一洞察，Sonata通过在查询预填充阶段直接提取最后一层隐藏表示，并使用一个离线训练好的小适配器预测自洽性分数。这个分数随后指导LLM动态分配链式思维（CoT）的令牌预算：对于自洽性高的简单查询，分配较少的思考令牌；对于自洽性低的复杂查询，则分配更多的思考令牌。该适配器一旦训练完成，可以在不同任务间迁移，且推理时几乎不增加额外计算开销，因为它仅作用于预填充阶段。

研究团队在多个主流模型上进行了实验，包括Qwen3-8B、GPT-OSS-120B、Qwen3-235B-A22B和Intern-S1-mini，并在多个数学和推理基准测试（AIME24、AIME25、GSM8K、MATH500、GPQA）上评估了Sonata的效果。结果表明，在保持相同准确率的情况下，Sonata能够将思考令牌数量减少20%至80%；或者在令牌预算相同时，将准确率提升最高5%。这一方法还与传统CoT压缩方法正交，可以结合使用进一步提升效率。

这项研究为实际部署高效推理系统提供了新思路：通过自适应地分配计算资源，避免了对所有查询采用统一的高成本推理，从而在性能和效率之间取得更好的平衡。论文由Pingzhi Li、Bairu Hou、Yun Zhu等作者完成，并已被ICLR 2026接收。