2026-05-25 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

大型语言模型何时需要推理？基于熵变相变的动力系统视角

研究表明，链式思维推理并非总是有益，早期熵动力学可用于判断何时需要推理。作者提出EDRM框架，通过熵轨迹自适应选择推理策略，在15个基准测试和4个模型上实现41-55%的token减少同时提升准确率。

来源arXiv Machine Learning作者: Wei Xia, Haoqing Wang, Zhi-Hong Deng, Yehui Tang

近日，一篇提交至arXiv的论文《When Do LLMs Reason? A Dynamical Systems View via Entropy Phase Transitions》深入探讨了大语言模型（LLM）中链式思维（Chain-of-Thought, CoT）推理的适用条件。尽管CoT已成为增强LLM能力的默认策略，研究团队通过系统分析发现，其效果并非一成不变。事实上，在事实性查询和开放式任务中，CoT往往提升有限甚至产生负面影响，同时大幅增加token消耗。这一发现对当前广泛依赖CoT的AI应用提出了重要质疑。

研究人员提出，LLM的推理并非任务或模型的静态属性，而是生成过程中涌现的动态解码状态。他们通过分析早期解码阶段的熵动力学，发现了一个关键信号：那些能从CoT中获益的任务呈现出持续的熵降低趋势，而其他任务则表现出不稳定或熵增加的模式。这种从高熵探索状态到低熵结构推理状态的转变，类似于相变过程，揭示了推理的本质是一种动态适应性行为。

基于这一发现，团队开发了熵动力学推理流形（EDRM）框架。EDRM是一种轻量级、无需训练的路由机制，通过编码早期解码熵轨迹到紧凑流形表示，实现零样本部署和细粒度实例级适应。实验覆盖15个基准测试和4种不同规模与架构的LLM（包括多种参数级别），EDRM在数据集层面将token消耗降低41-55%，同时仅需50个校准样本即可提升准确率；在实例级，准确率提升最高达4.7%，token节省27-45%。这些结果在数学推理、常识问答和代码生成等多种任务上均得到验证。

这项研究的核心启示在于：推理应被选择性调用而非默认启用。熵驱动的解码控制为实现高效且自适应的LLM推理提供了新思路，有望显著提升语言模型在实际应用中的效率与效果，同时降低计算成本。未来，该框架可进一步结合动态调整策略，适应更复杂的多步推理任务。