2026-06-26 12:00 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-26 16:01 UTC+8

幫助性有害：後訓練中領域依賴的中期訓練同情價值觀退化

研究發現，對語言模型進行幫助性後訓練（如SFT和RL）會顯著削弱中期訓練注入的動物同情價值觀，而編程領域後訓練則能更好地保留這些價值觀。幫助性訓練在英語通用道德推理上也導致大幅下降，但跨語言遷移時效應消失，而同情價值觀的退化則一致跨語言存在。這表明中期訓練習得的價值觀比後訓練帶來的推理改進更為深層和跨語言。因此，構建價值導向模型時，編程後訓練可能是更優選擇。

來源arXiv Computational Linguistics作者: Jasmine Brazilek, Juliana Seawell

文章情報

工程師進階

要點

幫助性後訓練（SFT和GRPO）顯著降低動物同情價值觀評分，在AHB基準上比編程訓練低約30個百分點。
在英語MORU基準上，幫助性訓練使通用道德推理下降25.5個百分點，但跨語言時無顯著差異。
同情價值觀退化一致跨語言轉移，編程訓練在非英語項目上的相對改進是英語項目的4.5倍。
為保護中期訓練注入的價值觀，建議採用編程領域後訓練而非幫助性後訓練。

為甚麼重要

這條新聞值得關注，因為幫助性後訓練（SFT和GRPO）顯著降低動物同情價值觀評分，在AHB基準上比編程訓練低約30個百分點。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

本面板由 AI 生成，經人工審核。

一項新研究揭示了語言模型後訓練中的一個矛盾現象：旨在提升模型幫助性的標準流程（如監督微調SFT和強化學習RL）可能會無意中破壞中期訓練階段植入的價值觀。該研究以Llama 3.1 8B模型為基礎，在合成數據上進行了同情價值觀的中期訓練，然後分別採用幫助性（Dolly-15k數據集）和編程（Magicoder-110K數據集）領域的數據進行後訓練，涵蓋SFT和基於組相對策略優化（GRPO）兩種範式。

為了評估價值觀保留情況，研究者使用了動物傷害基準（AHB 2.2）和道德推理不確定性基準（MORU）。結果顯示，幫助性後訓練在AHB上的動物同情評分顯著低於編程訓練：SFT下為35.7%對比65.2%，GRPO下為18.7%對比32.0%。這一差異在兩個獨立的幫助性數據集和兩種訓練範式下均得到復現，表明幫助性訓練對同情價值觀的侵蝕具有穩健性。

更令人震驚的是，幫助性訓練還嚴重削弱了英語環境下的通用道德推理能力：在MORU英語項目中，幫助性訓練模型的正確率僅為46.4%，而編程訓練模型達到71.9%，差距高達25.5個百分點。然而，這一領域效應在跨語言環境中完全消失：在多語言MORU基準上，幫助性訓練和編程訓練的表現幾乎持平（52.3%對比51.2%）。

與此形成鮮明對比的是，動物同情價值觀的退化在跨語言環境中持續存在。編程訓練相比基礎模型在AHB上的百分比提升，在非英語項目上是英語項目的4.5倍。這一分歧表明，通過中期訓練植入的價值觀在模型中編碼得更深層、更具跨語言一致性，而領域特定後訓練帶來的推理改進則較為表面且語言依賴。

研究者指出，對於在價值導向中期訓練基礎上構建模型的研究機構而言，採用編程領域後訓練可能比幫助性後訓練更有利於保留中期習得的價值觀，同時不會損害通用推理能力。該發現為AI安全與對齊研究提供了重要參考，提示後訓練階段的數據選擇需要謹慎權衡幫助性與價值觀保護。

論文題為“Helpfulness Hurts: Domain-Dependent Degradation of Mid-Trained Compassion Values Under Post-Training”，由Jasmine Brazilek等人撰寫，預印本發佈於arXiv（ID: 2606.26102）。