2026-05-29 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

从上下文偏移到风格崩溃：为什么训练目标比规模更重要

一篇新论文分析了17个大型语言模型（参数规模4.1亿至1000亿以上），发现指令微调系统系统地压缩了语言熵，尤其是在话语和结构维度上，平均放大效应达1,949%至16,853%，峰值可达5,181%至209,675%。复杂标点符号的使用频率被抑制到基线的3.2%至23.2%。这些效应在RLHF下并未恶化。弱干预（lambda=1.0）使崩溃加剧240%，而强控制（lambda=5.0）实现了40.5%的改进，尽管规模劣势达200-1000倍，仍比前沿模型性能高出96.7-98.2%。强控制还带来了15%更高的distinct-4、27%更高的词汇多样性以及78%更低的重复率。研究表明，对齐需要足够的控制强度，而非仅仅是分布平滑。

来源arXiv Computational Linguistics作者: Rohan Mahapatra

一篇来自Rohan Mahapatra的最新研究论文揭示，当前大型语言模型（LLM）的训练流程存在结构性缺陷：训练目标（alignment objectives）比模型规模更能导致语言风格的崩溃。该研究分析了17个不同规模的模型（参数从4.1亿到超过1000亿），使用24个语言驱动的探针，系统记录了指令微调对语言特征的影响。

研究发现，指令微调系统会系统地压缩语言熵，尤其是在话语和结构维度上。平均熵放大效应达到1,949%至16,853%，峰值高达5,181%至209,675%。同时，复杂标点符号（如分号、引号等）的使用频率被抑制到基线水平的3.2%至23.2%。这表明训练流程正在迫使模型输出变得单调和可预测。

值得注意的是，强化学习从人类反馈（RLHF）并不会进一步恶化这些效应。在匹配的基础模型和指令微调模型对中，差异模式统计上不显著（p > 0.25）。然而，干预强度对结果影响巨大：弱干预（lambda=1.0）使风格崩溃加剧240%，而强控制（lambda=5.0）则能实现40.5%的改进。更令人惊讶的是，尽管强控制模型在规模上比前沿模型小200到1000倍，其性能却高出96.7%到98.2%。此外，lambda=5.0的强控制相比中等正则化，带来了15%更高的distinct-4分数、27%更高的词汇多样性以及78%更低的重复率。

研究者强调，对齐并非简单地追求分布平滑，而是需要足够的控制强度。否则，偏好优化会在标准质量指标无法察觉的情况下重塑语言分布，但通过分布探针可以检测到这种变化。这项研究对AI文本检测、训练数据污染以及语言长期演化具有重要启示。

该论文计划提交至NeurIPS 2026，目前已在arXiv上发布（arXiv:2605.28826），共26页，包含13张表和2张图。