AI News HubLIVE
站內改寫2 分鐘閱讀

幫助性有害:後訓練中領域依賴的中期訓練同情價值觀退化

研究發現,對語言模型進行幫助性後訓練(如SFT和RL)會顯著削弱中期訓練注入的動物同情價值觀,而編程領域後訓練則能更好地保留這些價值觀。幫助性訓練在英語通用道德推理上也導致大幅下降,但跨語言遷移時效應消失,而同情價值觀的退化則一致跨語言存在。這表明中期訓練習得的價值觀比後訓練帶來的推理改進更為深層和跨語言。因此,構建價值導向模型時,編程後訓練可能是更優選擇。

來源arXiv Computational Linguistics作者: Jasmine Brazilek, Juliana Seawell

一項新研究揭示了語言模型後訓練中的一個矛盾現象:旨在提升模型幫助性的標準流程(如監督微調SFT和強化學習RL)可能會無意中破壞中期訓練階段植入的價值觀。該研究以Llama 3.1 8B模型為基礎,在合成數據上進行了同情價值觀的中期訓練,然後分別採用幫助性(Dolly-15k數據集)和編程(Magicoder-110K數據集)領域的數據進行後訓練,涵蓋SFT和基於組相對策略優化(GRPO)兩種範式。

為了評估價值觀保留情況,研究者使用了動物傷害基準(AHB 2.2)和道德推理不確定性基準(MORU)。結果顯示,幫助性後訓練在AHB上的動物同情評分顯著低於編程訓練:SFT下為35.7%對比65.2%,GRPO下為18.7%對比32.0%。這一差異在兩個獨立的幫助性數據集和兩種訓練範式下均得到復現,表明幫助性訓練對同情價值觀的侵蝕具有穩健性。

更令人震驚的是,幫助性訓練還嚴重削弱了英語環境下的通用道德推理能力:在MORU英語項目中,幫助性訓練模型的正確率僅為46.4%,而編程訓練模型達到71.9%,差距高達25.5個百分點。然而,這一領域效應在跨語言環境中完全消失:在多語言MORU基準上,幫助性訓練和編程訓練的表現幾乎持平(52.3%對比51.2%)。

與此形成鮮明對比的是,動物同情價值觀的退化在跨語言環境中持續存在。編程訓練相比基礎模型在AHB上的百分比提升,在非英語項目上是英語項目的4.5倍。這一分歧表明,通過中期訓練植入的價值觀在模型中編碼得更深層、更具跨語言一致性,而領域特定後訓練帶來的推理改進則較為表面且語言依賴。

研究者指出,對於在價值導向中期訓練基礎上構建模型的研究機構而言,採用編程領域後訓練可能比幫助性後訓練更有利於保留中期習得的價值觀,同時不會損害通用推理能力。該發現為AI安全與對齊研究提供了重要參考,提示後訓練階段的數據選擇需要謹慎權衡幫助性與價值觀保護。

論文題為“Helpfulness Hurts: Domain-Dependent Degradation of Mid-Trained Compassion Values Under Post-Training”,由Jasmine Brazilek等人撰寫,預印本發佈於arXiv(ID: 2606.26102)。