2026-05-25 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

大型語言模型何時需要推理？基於熵變相變的動力系統視角

研究表明，鏈式思維推理並非總是有益，早期熵動力學可用於判斷何時需要推理。作者提出EDRM框架，通過熵軌跡自適應選擇推理策略，在15個基準測試和4個模型上實現41-55%的token減少同時提升準確率。

來源arXiv Machine Learning作者: Wei Xia, Haoqing Wang, Zhi-Hong Deng, Yehui Tang

近日，一篇提交至arXiv的論文《When Do LLMs Reason? A Dynamical Systems View via Entropy Phase Transitions》深入探討了大語言模型（LLM）中鏈式思維（Chain-of-Thought, CoT）推理的適用條件。儘管CoT已成為增強LLM能力的默認策略，研究團隊通過系統分析發現，其效果並非一成不變。事實上，在事實性查詢和開放式任務中，CoT往往提升有限甚至產生負面影響，同時大幅增加token消耗。這一發現對當前廣泛依賴CoT的AI應用提出了重要質疑。

研究人員提出，LLM的推理並非任務或模型的靜態屬性，而是生成過程中湧現的動態解碼狀態。他們通過分析早期解碼階段的熵動力學，發現了一個關鍵信號：那些能從CoT中獲益的任務呈現出持續的熵降低趨勢，而其他任務則表現出不穩定或熵增加的模式。這種從高熵探索狀態到低熵結構推理狀態的轉變，類似於相變過程，揭示了推理的本質是一種動態適應性行為。

基於這一發現，團隊開發了熵動力學推理流形（EDRM）框架。EDRM是一種輕量級、無需訓練的路由機制，通過編碼早期解碼熵軌跡到緊湊流形表示，實現零樣本部署和細粒度實例級適應。實驗覆蓋15個基準測試和4種不同規模與架構的LLM（包括多種參數級別），EDRM在數據集層面將token消耗降低41-55%，同時僅需50個校準樣本即可提升準確率；在實例級，準確率提升最高達4.7%，token節省27-45%。這些結果在數學推理、常識問答和代碼生成等多種任務上均得到驗證。

這項研究的核心啓示在於：推理應被選擇性調用而非默認啓用。熵驅動的解碼控制為實現高效且自適應的LLM推理提供了新思路，有望顯著提升語言模型在實際應用中的效率與效果，同時降低計算成本。未來，該框架可進一步結合動態調整策略，適應更復雜的多步推理任務。