2026-06-30 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 16:09 UTC+8

Transformer語言模型中情境建模與心理理論的發展軌跡

本研究採用發展視角，追蹤Olmo2和Pythia語言模型在多個訓練階段中心理狀態推理行為的模式及前提條件。研究發現，錯誤信念任務（FBT）的超越隨機水平表現依賴於模型規模和足夠的訓練量，在預訓練後期出現，並通過後訓練干預（SFT、DPO）得到最大提升。然而，FBT表現脆弱，非事實動詞的使用會增加錯誤信念歸因。情境建模能力通常先於並優於FBT，但在某些方面出現不一致性。結果表明，大型訓練充分的模型能夠發展出部分一致的情境模型，但仍表現出驚人的脆弱性。

來源arXiv Computational Linguistics作者: Pamela D. Rivi\`ere, Cameron Jones, Sean Trott

最近，一項針對大型語言模型（LLM）的研究採用發展心理學視角，系統考察了模型在訓練過程中如何逐步獲得對他人信念狀態進行推理的能力。研究人員以Olmo2和Pythia兩個模型系列為對象，在其多個訓練檢查點（checkpoint）上進行了錯誤信念任務（FBT）測試。結果顯示，模型能否在FBT中取得超越隨機水平的成績，同時取決於模型本身的規模和已經接受的訓練數據量。這一能力並非在訓練初期出現，而是在預訓練階段相對靠後的時期才逐漸顯現。更有意思的是，在最具診斷性的心理理論條件（即隱式錯誤信念條件）下，通過監督微調（SFT）和直接偏好優化（DPO）等後訓練干預，模型的表現能夠獲得最大幅度的提升。

然而，研究同時揭示了FBT表現的脆弱性。與以往的研究一致，當使用非事實動詞如“認為”（thinks）時，即使在真信念條件下，模型也會錯誤地增加對錯誤信念的歸因。為了將這些發現置於更完整的背景中，研究者還追蹤了情境建模能力的發展——即模型正確報告描述場景中基本事實的能力。結果表明，情境建模的準確率通常比FBT準確率出現得更早，並且在其之上。但在某些方面，情境表徵也表現出令人驚訝的不連貫性。例如，對於始終知道物品真實位置的反派角色（Antagonist），Olmo2 13b模型在回答關於該角色知識狀態的問題時，會持續受到目標角色（Target）知識狀態以及非事實動詞存在的影響。

綜合這些發現，研究者認為，較大且經過充分訓練的模型能夠按照發展的適當順序構建部分一致的情境模型，但同時也表現出令人驚訝的脆弱性。這一結果凸顯了採用發展路徑和壓力測試方法來評估LLM能力的重要價值。該論文已被提交至第一屆計算發展語言學研討會（非存檔）。