研究人員查明大型語言模型能夠掌握小型模型錯失技能的原因
一項新研究解釋了為何大型語言模型能學會小型模型無法掌握的技能,指出常見任務會不斷覆蓋小型模型對稀有任務的學習,而增大模型規模或提高稀有任務在訓練資料中的頻率可解決這一問題。
一項由Anthropic、斯坦福大學等機構聯合開展的新研究揭示了大型語言模型能夠學會小型模型無法掌握的技能的根本原因,並提出了一個實用的改進方向:與其無休止地擴大模型規模,不如在訓練資料中提高目標任務的頻率。
研究團隊透過一系列實驗發現,小型模型在學習稀有任務時面臨一個核心問題——常見任務會不斷干擾和覆蓋模型對稀有任務的學習。模型中的每個神經元都傾向於分配給訓練資料中頻繁出現且簡單的特徵,而稀有且複雜的特徵則被忽視。在實驗中,只有模型規模足夠大時,才能學會僅佔訓練資料0.25%的稀有任務。
研究者將這一現象解釋為“更新即遺忘”迴圈:小型模型在訓練過程中,常見任務的每次更新都會強烈地將模型拉向自身方向,幾乎完全抹去模型剛學到的稀有任務資訊。當下一個稀有任務樣本出現時,模型只能從零開始。相比之下,大型模型在基本掌握常見任務後,對其的更新壓力減弱,從而釋放出容量來鞏固稀有任務的學習。
為了驗證這一理論,團隊訓練了引數範圍從400萬到40億的OLMo模型,訓練資料量高達2100億token,並在其中混入了兩種人工任務:數字比較和模加法,頻率從每批約1000個樣本到每10批一個樣本不等。結果顯示,只有最大的模型(10億引數)能夠學會這些稀有任務,並且展現出“頓悟”現象(grokking),即模型先記憶後突然理解底層規則。
研究進一步發現,記憶是泛化的必要前提。模型需要足夠長時間地保留單個觀測結果,才能跨批次形成更廣泛的模式。因此,與其盲目擴大模型,不如增加目標任務在訓練資料中的出現頻率,這種方法在小型模型上也能有效錨定特定技能。
這項研究為語言模型的能力湧現提供了新的視角,也表明模型規模並非唯一決定因素。此前MIT團隊曾從模型幾何角度解釋規模定律,而本研究則聚焦於模型在給定資料混合下實際能學到什麼。關於能力是否真的在某一規模閾值下突然湧現的爭論仍在繼續。