2026-06-29 12:00 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-29 16:01 UTC+8

形式化潛在思維：LLM思維表示的四條公理

研究者提出了一種評估大型語言模型潛在思維表示的公理框架，定義了因果性、最小性、可分離性和穩定性四條公理，併為每條公理設計了獨立於下游精度的定量指標。對23個推理任務的審計發現，沒有候選表示能同時滿足所有四條公理，且表示在區分任務類型上可靠，但無法區分同一任務內的兩個問題，編碼的信息也未能超越輸入嵌入。這一缺陷在多模型家族中一致存在，表明其結構性本質。

來源arXiv Computational Linguistics作者: Fahd Seddik, Fatemeh Fard

近日，一篇發表在arXiv上的論文（編號2606.27378）提出了一個評估大型語言模型（LLM）中潛在思維表示的新框架。該研究由Fahd Seddik和Fatemeh Fard完成，旨在解決現有評估方法將表示質量與模型能力混為一談的問題，從而無法將失敗歸因於表示本身。

研究者形式化了四條功能公理：因果性（表示應捕捉導致輸出的關鍵因素）、最小性（表示應儘可能簡潔）、可分性（不同思維的表示應可區分）和穩定性（對輸入的小擾動，表示應穩定）。每條公理對應一個定量指標，這些指標直接基於表示計算，不依賴下游任務精度。

具體而言，因果性公理要求表示包含導致最終輸出的因果因素，即表示應能解釋模型為何給出特定答案。最小性公理要求在保持因果性的前提下儘可能簡潔，去除冗餘。可分離性要求不同思維（如不同推理路徑）的表示在向量空間中可區分。穩定性要求對輸入中無關的微小擾動，表示應基本不變。

研究者為每條公理設計了量化指標：因果性通過干預表示特定維度並觀察輸出變化來度量；最小性通過信息熵或維度冗餘度衡量；可分離性使用表示之間的餘弦距離或聚類純度；穩定性通過輸入擾動後表示的變化程度評估。這些指標直接作用於表示，不依賴下游準確率。

實驗在23個推理任務（如空間推理、事實問答）上進行，覆蓋了從7B到70B參數的多個開放權重模型家族，包括Llama、Mistral、Qwen等。結果一致顯示，沒有候選表示能同時滿足所有四條公理。表示雖能可靠區分任務類型（如空間推理 vs. 事實問答），但無法區分同一任務內的不同問題（如兩個不同的空間推理問題）。此外，表示編碼的信息幾乎不比輸入嵌入多出任何內容。這一失敗在所有模型家族中一致出現，表明該問題是結構性的，而非模型規模或訓練過程所致。

該論文共44頁，包含27個表格和14張圖片，投稿於2026年5月7日。該工作為LLM內部表示評估提供了新視角，暗示當前模型在表示層面可能存在根本性侷限，對理解LLM推理能力、模型選型及未來設計具有重要影響。