AI News HubLIVE
サイト内リライト2 分で読了

有用性が害になる:事後学習における中期学習された思いやりの価値のドメイン依存的な低下

研究により、言語モデルに対する有用性(helpfulness)を目的とした事後学習(SFTやRL)が、中期学習で注入された動物への思いやりの価値を大幅に低下させることが判明。一方、コーディング領域の事後学習はこれらの価値をよりよく保持する。有用性学習は英語の一般的道徳推論も大きく低下させるが、言語を跨いだ効果は見られず、思いやり価値の低下は一貫して言語間で転移する。中期学習された価値は、領域特化型事後学習による推論改善よりも深く、言語横断的に符号化されていることを示唆。価値指向モデル構築にはコーディング事後学習が推奨される。

ソースarXiv Computational Linguistics著者: Jasmine Brazilek, Juliana Seawell

新しい研究により、言語モデルの事後学習における一つの逆説が明らかになりました。モデルをより「役立つ」ものにするための標準的なプロセス(教師ありファインチューニングSFTや強化学習RL)が、中期学習段階で埋め込まれた価値観を意図せず損なう可能性があるというものです。研究チームは、Llama 3.1 8Bモデルに思いやり志向の合成データを用いて中期学習を施した後、有用性(Dolly-15kデータセット)とコーディング(Magicoder-110Kデータセット)という異なる領域のデータで事後学習を行い、SFTとグループ相対的政策最適化(GRPO)の両パラダイムを検証しました。

価値保持の評価には、動物危害ベンチマーク(AHB 2.2)と不確実性下の道徳推論ベンチマーク(MORU)が使用されました。結果は明白でした。AHBにおける動物への思いやりのスコアは、有用性事後学習がコーディング学習を大幅に下回りました(SFT:35.7%対65.2%、GRPO:18.7%対32.0%)。この差は、独立した二つの有用性データセットと二つの訓練パラダイムで再現され、有用性訓練による思いやり価値の侵食が頑健であることを示しています。

さらに驚くべきことに、有用性訓練は英語環境での一般的な道徳推論能力も著しく低下させました。MORU英語項目では、有用性訓練モデルの正解率は46.4%だったのに対し、コーディング訓練モデルは71.9%と、25.5ポイントもの差が生じました。しかし、このドメイン効果は言語を超えると完全に消失します。多言語MORUベンチマークでは、有用性訓練とコーディング訓練のパフォーマンスはほぼ同等でした(52.3%対51.2%)。

対照的に、動物への思いやり価値の低下は言語間で一貫して転移しました。コーディング訓練のベースモデルに対するAHBスコアの向上は、非英語項目において英語項目の4.5倍も大きくなりました。この乖離は、中期学習を通じて埋め込まれた価値観が、領域特化型の事後学習による推論改善よりも深く、言語横断的に符号化されていることを示唆しています。

研究者らは、価値観に配慮した中期学習を基盤にモデルを構築するラボにとって、コーディング領域の事後学習が有用性事後学習よりも中期学習された価値を保持しやすく、かつ一般的な推論能力を損なわないと結論付けています。この発見は、AIの安全性とアライメント研究に重要な示唆を与え、事後学習段階でのデータ選択には有用性と価値保護のバランスを慎重に考慮する必要があることを示しています。

論文は「Helpfulness Hurts: Domain-Dependent Degradation of Mid-Trained Compassion Values Under Post-Training」と題され、Jasmine Brazilekらによって執筆され、プレプリントがarXiv(ID: 2606.26102)で公開されています。