2026-05-25 13:00 UTC+9サイト内リライト2 分で読了更新: 2026-06-30 22:03 UTC+9

LLMはいつ推論するべきか？エントロピー相転移による動的システム視点

チェーン・オブ・ソート推論は常に有益とは限らず、初期エントロピー動態が推論の必要性を示す。著者らはEDRMフレームワークを提案し、エントロピー軌跡に基づいて推論戦略を適応的に選択、15ベンチマークでトークン消費を41-55%削減しつつ精度を向上させた。

ソースarXiv Machine Learning著者: Wei Xia, Haoqing Wang, Zhi-Hong Deng, Yehui Tang

最近、arXivに投稿された論文「When Do LLMs Reason? A Dynamical Systems View via Entropy Phase Transitions」は、大規模言語モデル（LLM）におけるチェーン・オブ・ソート（CoT）推論の適用条件を詳細に探求しています。CoTはLLMの能力を高めるデフォルト戦略となっていますが、研究チームは体系的な分析を通じて、その効果が一様でないことを発見しました。実際、事実に基づくクエリやオープンエンドタスクでは、CoTの効果は限定的か、むしろトークン消費を増やしながら性能を低下させる場合があります。この発見は、現在広く使われているCoTに依存するAIアプリケーションに重要な疑問を投げかけます。

研究者らは、LLMの推論はタスクやモデルの静的特性ではなく、生成中に出現する動的なデコード状態であると主張します。彼らは初期デコード段階のエントロピー動態を分析し、重要なシグナルを特定しました：CoTから利益を得るタスクではエントロピーが一貫して減少するのに対し、他のタスクでは不安定または増加パターンを示します。この高エントロピーの探索状態から低エントロピーの構造化推論状態への移行は、相転移に類似しており、推論の本質が動的な適応行動であることを示唆しています。

この発見に基づき、チームはエントロピー動態推論多様体（EDRM）フレームワークを開発しました。EDRMは軽量で訓練不要のルーティング機構であり、早期デコードエントロピーの軌跡をコンパクトで解釈可能な多様体表現に埋め込み、ゼロショット展開と細粒度のインスタンスレベルの適応を可能にします。実験は15のベンチマークと4つの異なる規模・アーキテクチャのLLM（複数のパラメータ規模を含む）をカバーし、EDRMはデータセットレベルでトークン消費を41-55%削減し、わずか50のキャリブレーションサンプルで精度を向上させました。インスタンスレベルでは、精度が最大4.7%向上し、トークン節約率は27-45%を維持しました。これらの結果は、数学的推論、常識QA、コード生成など多様なタスクで検証されています。

この研究の核心的な示唆は、推論はデフォルトで適用するのではなく選択的に呼び出すべきであるということです。エントロピー駆動のデコード制御は、効率的で適応的なLLM推論のための新たな道を開き、計算コストを削減しながら言語モデルの実用効率と効果を大幅に向上させる可能性があります。将来的には、このフレームワークを動的調整戦略と組み合わせ、より複雑な多段階推論タスクに適応させることが期待されます。