2026-06-29 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-29 16:04 UTC+8

發展方法揭示神經語言模型的統計學習：Transformer從最抽象的統計模式中泛化

本研究採用發展方法探究神經語言模型（NLM）的統計學習和心理表徵。通過訓練一系列生成式Transformer模型於合成語法，並保存訓練過程中多個階段的模型狀態，分析內部表徵的變化，發現NLM在學習初期獲取最抽象的全局統計知識，隨後學習相對局部的統計依賴。這一學習路徑包含許多早期過度泛化，這些泛化在後期逐漸受到約束。基於此觀察，提出解釋NLM統計學習和語言認知的新框架。

來源arXiv Computational Linguistics作者: Wang Bojun, Holly Jenkins, Elizabeth Wonnacott

神經語言模型（NLM）如GPT系列在自然語言處理領域取得了巨大成功，但其內部工作原理仍是一個未解之謎。最近，一篇發表於arXiv的論文（編號2606.27460）採用了一種新穎的“發展方法”來探究NLM的統計學習機制。該方法借鑑了發展心理學中的思路，通過追蹤模型在訓練過程中不同階段的表現，揭示了Transformer如何逐步習得語言中的統計模式。

研究者訓練了一系列生成式Transformer模型，這些模型使用合成語法進行訓練。合成語法是一種受控的語言環境，可以精確地定義統計規律，從而便於分析模型學到什麼。在訓練過程中，他們定期保存模型的內部狀態（即參數和表徵）。通過分析這些狀態的變化，他們發現了一個有趣的學習順序：在訓練的最初階段，模型迅速捕捉到最抽象的全局統計知識，例如句子結構中最寬泛的模式。隨後，模型才逐漸學習到更具體的局部統計依賴，如詞與詞之間的鄰近關係。

這一發現挑戰了傳統觀點，後者往往認為模型是從簡單到複雜逐步學習的。實際上，變壓器模型似乎從一開始就傾向於過度泛化，即對語言規律做出過於寬泛的假設。例如，在早期，模型可能認為所有句子都遵循某種非常一般的模板，而忽略了細節。隨着訓練的進行，這些過度泛化逐漸被修正，模型變得更精細，能夠處理局部的特殊性。

論文作者指出，這種學習路徑類似於人類兒童的語言習得過程：兒童早期會犯很多語法錯誤，然後逐漸學會正確的約束。基於這一觀察，他們提出了一個解釋NLM統計學習和語言認知的新框架。該框架強調兩個關鍵階段：第一階段是抽象全局規則的快速提取，第二階段是局部依賴的精細化和約束。這項研究不僅加深了我們對NLM內部機制的理解，還可能為改進模型訓練策略提供啓示。

該論文被接收為跨學科統計學習進展會議（Interdisciplinary Advances in Statistical Learning）的口頭報告，展示了其跨學科的影響力。作者包括Wang Bojun等三人，論文可在arXiv上獲取。