從上下文偏移到風格崩潰:為什麼訓練目標比規模更重要
一篇新論文分析了17個大型語言模型(引數規模4.1億至1000億以上),發現指令微調系統系統地壓縮了語言熵,尤其是在話語和結構維度上,平均放大效應達1,949%至16,853%,峰值可達5,181%至209,675%。複雜標點符號的使用頻率被抑制到基線的3.2%至23.2%。這些效應在RLHF下並未惡化。弱干預(lambda=1.0)使崩潰加劇240%,而強控制(lambda=5.0)實現了40.5%的改進,儘管規模劣勢達200-1000倍,仍比前沿模型效能高出96.7-98.2%。強控制還帶來了15%更高的distinct-4、27%更高的詞彙多樣性以及78%更低的重複率。研究表明,對齊需要足夠的控制強度,而非僅僅是分佈平滑。
文章情報
要點
- 指令微調導致語言熵沿話語和結構維度崩潰,標點符號使用大幅減少。
- RLHF不會使風格崩潰惡化,但弱正則化會加劇問題。
- 強控制(lambda=5.0)在規模劣勢下仍顯著優於前沿模型。
- 對齊需要足夠的控制強度,而不僅僅是分佈平滑。
為什麼重要
這條新聞值得關注,因為指令微調導致語言熵沿話語和結構維度崩潰,標點符號使用大幅減少。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
一篇來自Rohan Mahapatra的最新研究論文揭示,當前大型語言模型(LLM)的訓練流程存在結構性缺陷:訓練目標(alignment objectives)比模型規模更能導致語言風格的崩潰。該研究分析了17個不同規模的模型(引數從4.1億到超過1000億),使用24個語言驅動的探針,系統記錄了指令微調對語言特徵的影響。
研究發現,指令微調系統會系統地壓縮語言熵,尤其是在話語和結構維度上。平均熵放大效應達到1,949%至16,853%,峰值高達5,181%至209,675%。同時,複雜標點符號(如分號、引號等)的使用頻率被抑制到基線水平的3.2%至23.2%。這表明訓練流程正在迫使模型輸出變得單調和可預測。
值得注意的是,強化學習從人類反饋(RLHF)並不會進一步惡化這些效應。在匹配的基礎模型和指令微調模型對中,差異模式統計上不顯著(p > 0.25)。然而,干預強度對結果影響巨大:弱干預(lambda=1.0)使風格崩潰加劇240%,而強控制(lambda=5.0)則能實現40.5%的改進。更令人驚訝的是,儘管強控制模型在規模上比前沿模型小200到1000倍,其效能卻高出96.7%到98.2%。此外,lambda=5.0的強控制相比中等正則化,帶來了15%更高的distinct-4分數、27%更高的詞彙多樣性以及78%更低的重複率。
研究者強調,對齊並非簡單地追求分佈平滑,而是需要足夠的控制強度。否則,偏好最佳化會在標準質量指標無法察覺的情況下重塑語言分佈,但透過分佈探針可以檢測到這種變化。這項研究對AI文本檢測、訓練資料汙染以及語言長期演化具有重要啟示。
該論文計劃提交至NeurIPS 2026,目前已在arXiv上釋出(arXiv:2605.28826),共26頁,包含13張表和2張圖。