2026-05-29 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

從上下文偏移到風格崩潰：為什麼訓練目標比規模更重要

一篇新論文分析了17個大型語言模型（引數規模4.1億至1000億以上），發現指令微調系統系統地壓縮了語言熵，尤其是在話語和結構維度上，平均放大效應達1,949%至16,853%，峰值可達5,181%至209,675%。複雜標點符號的使用頻率被抑制到基線的3.2%至23.2%。這些效應在RLHF下並未惡化。弱干預（lambda=1.0）使崩潰加劇240%，而強控制（lambda=5.0）實現了40.5%的改進，儘管規模劣勢達200-1000倍，仍比前沿模型效能高出96.7-98.2%。強控制還帶來了15%更高的distinct-4、27%更高的詞彙多樣性以及78%更低的重複率。研究表明，對齊需要足夠的控制強度，而非僅僅是分佈平滑。

來源arXiv Computational Linguistics作者: Rohan Mahapatra

一篇來自Rohan Mahapatra的最新研究論文揭示，當前大型語言模型（LLM）的訓練流程存在結構性缺陷：訓練目標（alignment objectives）比模型規模更能導致語言風格的崩潰。該研究分析了17個不同規模的模型（引數從4.1億到超過1000億），使用24個語言驅動的探針，系統記錄了指令微調對語言特徵的影響。

研究發現，指令微調系統會系統地壓縮語言熵，尤其是在話語和結構維度上。平均熵放大效應達到1,949%至16,853%，峰值高達5,181%至209,675%。同時，複雜標點符號（如分號、引號等）的使用頻率被抑制到基線水平的3.2%至23.2%。這表明訓練流程正在迫使模型輸出變得單調和可預測。

值得注意的是，強化學習從人類反饋（RLHF）並不會進一步惡化這些效應。在匹配的基礎模型和指令微調模型對中，差異模式統計上不顯著（p > 0.25）。然而，干預強度對結果影響巨大：弱干預（lambda=1.0）使風格崩潰加劇240%，而強控制（lambda=5.0）則能實現40.5%的改進。更令人驚訝的是，儘管強控制模型在規模上比前沿模型小200到1000倍，其效能卻高出96.7%到98.2%。此外，lambda=5.0的強控制相比中等正則化，帶來了15%更高的distinct-4分數、27%更高的詞彙多樣性以及78%更低的重複率。

研究者強調，對齊並非簡單地追求分佈平滑，而是需要足夠的控制強度。否則，偏好最佳化會在標準質量指標無法察覺的情況下重塑語言分佈，但透過分佈探針可以檢測到這種變化。這項研究對AI文本檢測、訓練資料汙染以及語言長期演化具有重要啟示。

該論文計劃提交至NeurIPS 2026，目前已在arXiv上釋出（arXiv:2605.28826），共26頁，包含13張表和2張圖。