發展方法揭示神經語言模型的統計學習:Transformer從最抽象的統計模式中泛化
本研究採用發展方法探究神經語言模型(NLM)的統計學習和心理表徵。通過訓練一系列生成式Transformer模型於合成語法,並保存訓練過程中多個階段的模型狀態,分析內部表徵的變化,發現NLM在學習初期獲取最抽象的全局統計知識,隨後學習相對局部的統計依賴。這一學習路徑包含許多早期過度泛化,這些泛化在後期逐漸受到約束。基於此觀察,提出解釋NLM統計學習和語言認知的新框架。
神經語言模型(NLM)如GPT系列在自然語言處理領域取得了巨大成功,但其內部工作原理仍是一個未解之謎。最近,一篇發表於arXiv的論文(編號2606.27460)採用了一種新穎的“發展方法”來探究NLM的統計學習機制。該方法借鑑了發展心理學中的思路,通過追蹤模型在訓練過程中不同階段的表現,揭示了Transformer如何逐步習得語言中的統計模式。
研究者訓練了一系列生成式Transformer模型,這些模型使用合成語法進行訓練。合成語法是一種受控的語言環境,可以精確地定義統計規律,從而便於分析模型學到什麼。在訓練過程中,他們定期保存模型的內部狀態(即參數和表徵)。通過分析這些狀態的變化,他們發現了一個有趣的學習順序:在訓練的最初階段,模型迅速捕捉到最抽象的全局統計知識,例如句子結構中最寬泛的模式。隨後,模型才逐漸學習到更具體的局部統計依賴,如詞與詞之間的鄰近關係。
這一發現挑戰了傳統觀點,後者往往認為模型是從簡單到複雜逐步學習的。實際上,變壓器模型似乎從一開始就傾向於過度泛化,即對語言規律做出過於寬泛的假設。例如,在早期,模型可能認為所有句子都遵循某種非常一般的模板,而忽略了細節。隨着訓練的進行,這些過度泛化逐漸被修正,模型變得更精細,能夠處理局部的特殊性。
論文作者指出,這種學習路徑類似於人類兒童的語言習得過程:兒童早期會犯很多語法錯誤,然後逐漸學會正確的約束。基於這一觀察,他們提出了一個解釋NLM統計學習和語言認知的新框架。該框架強調兩個關鍵階段:第一階段是抽象全局規則的快速提取,第二階段是局部依賴的精細化和約束。這項研究不僅加深了我們對NLM內部機制的理解,還可能為改進模型訓練策略提供啓示。
該論文被接收為跨學科統計學習進展會議(Interdisciplinary Advances in Statistical Learning)的口頭報告,展示了其跨學科的影響力。作者包括Wang Bojun等三人,論文可在arXiv上獲取。