AI News HubLIVE
站内改写2 分钟阅读

帮助性有害:后训练中领域依赖的中期训练同情价值观退化

研究发现,对语言模型进行帮助性后训练(如SFT和RL)会显著削弱中期训练注入的动物同情价值观,而编程领域后训练则能更好地保留这些价值观。帮助性训练在英语通用道德推理上也导致大幅下降,但跨语言迁移时效应消失,而同情价值观的退化则一致跨语言存在。这表明中期训练习得的价值观比后训练带来的推理改进更为深层和跨语言。因此,构建价值导向模型时,编程后训练可能是更优选择。

来源arXiv Computational Linguistics作者: Jasmine Brazilek, Juliana Seawell

一项新研究揭示了语言模型后训练中的一个矛盾现象:旨在提升模型帮助性的标准流程(如监督微调SFT和强化学习RL)可能会无意中破坏中期训练阶段植入的价值观。该研究以Llama 3.1 8B模型为基础,在合成数据上进行了同情价值观的中期训练,然后分别采用帮助性(Dolly-15k数据集)和编程(Magicoder-110K数据集)领域的数据进行后训练,涵盖SFT和基于组相对策略优化(GRPO)两种范式。

为了评估价值观保留情况,研究者使用了动物伤害基准(AHB 2.2)和道德推理不确定性基准(MORU)。结果显示,帮助性后训练在AHB上的动物同情评分显著低于编程训练:SFT下为35.7%对比65.2%,GRPO下为18.7%对比32.0%。这一差异在两个独立的帮助性数据集和两种训练范式下均得到复现,表明帮助性训练对同情价值观的侵蚀具有稳健性。

更令人震惊的是,帮助性训练还严重削弱了英语环境下的通用道德推理能力:在MORU英语项目中,帮助性训练模型的正确率仅为46.4%,而编程训练模型达到71.9%,差距高达25.5个百分点。然而,这一领域效应在跨语言环境中完全消失:在多语言MORU基准上,帮助性训练和编程训练的表现几乎持平(52.3%对比51.2%)。

与此形成鲜明对比的是,动物同情价值观的退化在跨语言环境中持续存在。编程训练相比基础模型在AHB上的百分比提升,在非英语项目上是英语项目的4.5倍。这一分歧表明,通过中期训练植入的价值观在模型中编码得更深层、更具跨语言一致性,而领域特定后训练带来的推理改进则较为表面且语言依赖。

研究者指出,对于在价值导向中期训练基础上构建模型的研究机构而言,采用编程领域后训练可能比帮助性后训练更有利于保留中期习得的价值观,同时不会损害通用推理能力。该发现为AI安全与对齐研究提供了重要参考,提示后训练阶段的数据选择需要谨慎权衡帮助性与价值观保护。

论文题为“Helpfulness Hurts: Domain-Dependent Degradation of Mid-Trained Compassion Values Under Post-Training”,由Jasmine Brazilek等人撰写,预印本发布于arXiv(ID: 2606.26102)。