潜在思考の形式化:LLMにおける思考表現の4つの公理
研究者らは、大規模言語モデル(LLM)の潜在思考表現を評価する公理的フレームワークを提案。因果性、最小性、分離可能性、安定性の4つの公理を定義し、それぞれに下流精度から独立した量的指標を導入した。23の推論タスクにおける調査では、すべての公理を同時に満たす表現はなく、同一タスク内の異なる質問を区別できず、入力埋め込み以上の情報を符号化していないことが判明。この欠陥は複数のモデルファミリーで一貫しており、構造的な問題であることを示している。
最近、arXivに投稿された論文(番号2606.27378)において、大規模言語モデル(LLM)の潜在思考表現を評価するための新しい枠組みが提案されました。研究者のFahd Seddik氏とFatemeh Fard氏によるこの研究は、既存の評価手法が表現の品質とモデルの能力を混同している問題を解決することを目的としています。
彼らは4つの機能的公理を形式化しました:因果性(表現は出力を引き起こす主要因を捉えるべき)、最小性(表現は可能な限り簡潔であるべき)、分離可能性(異なる思考の表現は区別可能であるべき)、安定性(入力の小さな摂動に対して表現は安定であるべき)です。各公理には定量的指標が定義され、これらは下流タスクの精度に依存せず、表現から直接計算されます。
具体的には、因果性は表現の特定次元を介入して出力変化を測定することで評価されます。最小性は表現のエントロピーや次元の冗長度で測定されます。分離可能性は異なる思考表現間のコサイン距離やクラスタリング純度で評価されます。安定性は入力摂動後の表現変化の大きさで測定されます。
実験は23の推論タスク(空間推論、事実QAなど)で実施され、Llama、Mistral、Qwenなど7Bから70Bパラメータの複数オープンウェイトモデルファミリーを対象としました。結果として、全ての公理を同時に満たす候補表現は存在せず、表現はタスクタイプを確実に区別できるものの、同一タスク内の異なる質問を区別できないことが明らかになりました。さらに、表現が符号化する情報は、入力埋め込みに既に存在するものをほとんど超えていません。この失敗は、denseモデル、推論蒸留モデル、強化学習訓練モデルファミリーで一貫して見られ、モデルサイズや訓練手順の特性ではなく、構造的なギャップであることを示しています。
本論文は全44ページ、27の表と14の図を含み、2026年5月7日に提出されました。この研究は、LLMの内部表現評価に新たな視点を提供し、現在のモデルが表現レベルで根本的な限界を持つ可能性を示唆しており、モデルの解釈可能性や頑健性評価に重要な影響を与えると期待されています。