AI News HubLIVE
站内改写

大型語言模型何時需要推理?基於熵變相變的動力系統視角

研究表明,鏈式思維推理並非總是有益,早期熵動力學可用於判斷何時需要推理。作者提出EDRM框架,通過熵軌跡自適應選擇推理策略,在15個基準測試和4個模型上實現41-55%的token減少同時提升準確率。

文章情報

工程師進階

要點

  • 鏈式思維推理在事實性和開放式任務中可能帶來邊際收益甚至負收益
  • 推理是一種動態解碼狀態,早期熵降低是其可靠信號
  • EDRM框架無需訓練即可自適應選擇推理策略
  • 實驗表明選擇性地使用推理比默認使用更高效

為甚麼重要

這條新聞值得關注,因為鏈式思維推理在事實性和開放式任務中可能帶來邊際收益甚至負收益。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

近日,一篇提交至arXiv的論文《When Do LLMs Reason? A Dynamical Systems View via Entropy Phase Transitions》深入探討了大語言模型(LLM)中鏈式思維(Chain-of-Thought, CoT)推理的適用條件。儘管CoT已成為增強LLM能力的默認策略,研究團隊通過系統分析發現,其效果並非一成不變。事實上,在事實性查詢和開放式任務中,CoT往往提升有限甚至產生負面影響,同時大幅增加token消耗。這一發現對當前廣泛依賴CoT的AI應用提出了重要質疑。

研究人員提出,LLM的推理並非任務或模型的靜態屬性,而是生成過程中湧現的動態解碼狀態。他們通過分析早期解碼階段的熵動力學,發現了一個關鍵信號:那些能從CoT中獲益的任務呈現出持續的熵降低趨勢,而其他任務則表現出不穩定或熵增加的模式。這種從高熵探索狀態到低熵結構推理狀態的轉變,類似於相變過程,揭示了推理的本質是一種動態適應性行為。

基於這一發現,團隊開發了熵動力學推理流形(EDRM)框架。EDRM是一種輕量級、無需訓練的路由機制,通過編碼早期解碼熵軌跡到緊湊流形表示,實現零樣本部署和細粒度實例級適應。實驗覆蓋15個基準測試和4種不同規模與架構的LLM(包括多種參數級別),EDRM在數據集層面將token消耗降低41-55%,同時僅需50個校準樣本即可提升準確率;在實例級,準確率提升最高達4.7%,token節省27-45%。這些結果在數學推理、常識問答和代碼生成等多種任務上均得到驗證。

這項研究的核心啓示在於:推理應被選擇性調用而非默認啓用。熵驅動的解碼控制為實現高效且自適應的LLM推理提供了新思路,有望顯著提升語言模型在實際應用中的效率與效果,同時降低計算成本。未來,該框架可進一步結合動態調整策略,適應更復雜的多步推理任務。