AI News HubLIVE
站內改寫2 分鐘閱讀

形式化潛在思維:LLM思維表示的四條公理

研究者提出了一種評估大型語言模型潛在思維表示的公理框架,定義了因果性、最小性、可分離性和穩定性四條公理,併為每條公理設計了獨立於下游精度的定量指標。對23個推理任務的審計發現,沒有候選表示能同時滿足所有四條公理,且表示在區分任務類型上可靠,但無法區分同一任務內的兩個問題,編碼的信息也未能超越輸入嵌入。這一缺陷在多模型家族中一致存在,表明其結構性本質。

來源arXiv Computational Linguistics作者: Fahd Seddik, Fatemeh Fard

近日,一篇發表在arXiv上的論文(編號2606.27378)提出了一個評估大型語言模型(LLM)中潛在思維表示的新框架。該研究由Fahd Seddik和Fatemeh Fard完成,旨在解決現有評估方法將表示質量與模型能力混為一談的問題,從而無法將失敗歸因於表示本身。

研究者形式化了四條功能公理:因果性(表示應捕捉導致輸出的關鍵因素)、最小性(表示應儘可能簡潔)、可分性(不同思維的表示應可區分)和穩定性(對輸入的小擾動,表示應穩定)。每條公理對應一個定量指標,這些指標直接基於表示計算,不依賴下游任務精度。

具體而言,因果性公理要求表示包含導致最終輸出的因果因素,即表示應能解釋模型為何給出特定答案。最小性公理要求在保持因果性的前提下儘可能簡潔,去除冗餘。可分離性要求不同思維(如不同推理路徑)的表示在向量空間中可區分。穩定性要求對輸入中無關的微小擾動,表示應基本不變。

研究者為每條公理設計了量化指標:因果性通過干預表示特定維度並觀察輸出變化來度量;最小性通過信息熵或維度冗餘度衡量;可分離性使用表示之間的餘弦距離或聚類純度;穩定性通過輸入擾動後表示的變化程度評估。這些指標直接作用於表示,不依賴下游準確率。

實驗在23個推理任務(如空間推理、事實問答)上進行,覆蓋了從7B到70B參數的多個開放權重模型家族,包括Llama、Mistral、Qwen等。結果一致顯示,沒有候選表示能同時滿足所有四條公理。表示雖能可靠區分任務類型(如空間推理 vs. 事實問答),但無法區分同一任務內的不同問題(如兩個不同的空間推理問題)。此外,表示編碼的信息幾乎不比輸入嵌入多出任何內容。這一失敗在所有模型家族中一致出現,表明該問題是結構性的,而非模型規模或訓練過程所致。

該論文共44頁,包含27個表格和14張圖片,投稿於2026年5月7日。該工作為LLM內部表示評估提供了新視角,暗示當前模型在表示層面可能存在根本性侷限,對理解LLM推理能力、模型選型及未來設計具有重要影響。