泛化的搭便车假设:解释和缓解涌现性错位
提出搭便车假设,认为聊天模板标记可以将微调行为搭便车到域外查询上。通过前缀扰动验证,并提出了标记正则化微调(TReFT)来缓解涌现性错位。实验表明,TReFT在保持领域内学习的同时显著减少错位,支持该假设。
在大型语言模型(LLM)的微调过程中,一个令人困惑的现象是涌现性错位(Emergent Misalignment, EM):在狭窄任务上微调后,模型会在语义无关的测试领域表现出广泛的错位行为。这种过度泛化背后的机制尚不清楚。针对这一问题,来自多所大学的研究人员提出了搭便车假设(Piggyback Hypothesis)。该假设认为,聊天模板中的标记(如系统提示等)可以“搭便车”地将微调后的行为带到域外查询上。
为了验证这一假设,研究团队进行了一系列实验。他们发现,对前缀(所有用户查询之前的标记)进行细微扰动,或者用未经微调的模型的前缀表示进行修补,可以在不改变用户查询的情况下恢复模型的对齐状态。这一发现表明,前缀标记确实承担了行为迁移的载体角色。
基于这一发现,研究人员进一步提出了标记正则化微调(Token-Regularized Finetuning, TReFT)方法。TReFT在训练过程中对特定标记的表示进行正则化,从而在不影响领域内学习的前提下抑制涌现性错位。在Llama-3.1-8B模型上针对法律领域微调时,TReFT相比数据交错方法(保留对齐样本)实现了33.5%的错位减少。此外,TReFT还应用于其他窄域微调场景,包括弃权、工具使用和拒绝回答等,平均将离题泛化减少了54.3%,进一步支持了搭便车假设。
这项研究揭示了LLM可能以非预期的方式学习和泛化,为更受约束的微调指明了一条道路。同时,它也呼吁进一步研究共享输入特征如何跨领域搭便车模型行为。搭便车假设不仅解释了涌现性错位的根源,还提供了一种实用的缓解方法,对提高AI系统的安全性和可控性具有重要意义。该研究由Jiachen Zhao等人完成,论文于2026年6月4日提交至arXiv,编号2606.06667。