2026-05-08 09:00 UTC+9サイト内リライト2 分で読了更新: 2026-06-27 09:25 UTC+9

RVPO: バリアンス正則化によるリスクセンシティブなアライメント

現行の批評家なしRLHF手法は、多目的報酬を算術平均で集約するため、制約無視に対して脆弱です。ある目的で高い数値が得られると、他の目的の重大な失敗（安全性やフォーマットなど）を相殺し、多目的アライメントに不可欠な低パフォーマンスの「ボトルネック」報酬を隠蔽します。本稿では、アドバンテージ集約時に報酬間のバリアンスをペナルティするリスクセンシティブなフレームワーク、Reward-Variance Policy Optimization (RVPO) を提案します。テイラー展開により、LogSumExp (SoftMin) 演算子が滑らかなバリアンスペナルティとして機能することを示します。医療・科学推論（最大17のLLM判定報酬信号、Qwen2.5-3B/7B/14B）とツール呼び出し（ルールベース制約、Qwen2.5-1.5B/3B）で評価し、RVPOが困難な制約を無視して簡単な目的を利用することを防ぐことで、HealthBenchでGDPOを上回るスコア（0.261 vs 0.215、14B、p<0.001）を達成し、GPQA-Diamondでも競争力のある精度を維持することを示します。

ソースApple Machine Learning Research

Reward-Variance Policy Optimization（RVPO）は、Apple機械学習研究チームが提案する新しい多目的強化学習からの人間フィードバック（RLHF）手法であり、現行手法に蔓延する制約無視問題に対処します。既存の批評家なしRLHF手法（GRPO、GDPOなど）では、複数の報酬信号が単純な算術平均で集約されます。この方法には重大な欠点があります。ある目的で高いスコアを獲得すると、他の目的（安全性やフォーマットなど）の重大な失敗を数値的に相殺し、多目的アライメントに不可欠な低パフォーマンスの「ボトルネック」報酬をモデルから隠蔽してしまいます。この制約無視問題は、特に安全性のような目的の失敗が壊滅的な結果をもたらす可能性があるため、多目的アライメントにおいて危険です。

RVPOの核心的な革新は、アドバンテージ関数の集約方法を変更することにあります。従来の手法はすべての報酬の合計を最大化することを目的としていましたが、RVPOはSoftMin演算子を導入して報酬間のバリアンスを罰し、最適化目標を「合計の最大化」から「一貫性の最大化」にシフトさせます。具体的には、RVPOはLogSumExp関数を滑らかなバリアンスペナルティとして使用し、テイラー展開により報酬バリアンスの正則化と等価であることを示します。この設計により、モデルはすべての目的で良好なパフォーマンスを発揮するよう強制され、単一の目的に過度に最適化して他を無視することを防ぎます。

研究チームは複雑なタスクでRVPOを評価しました。医療・科学推論タスクでは、モデルは最大17のLLM判定報酬信号（Qwen2.5-3B/7B/14Bを使用）を同時に満たす必要があります。実験結果は、RVPOがベースライン手法を大幅に上回ることを示しています。HealthBenchベンチマークでは、14BパラメータのRVPOモデルが0.261のスコアを達成したのに対し、GDPOは0.215（p<0.001）でした。さらに、GPQA-Diamondベンチマークでは、RVPOは競争力のある精度を維持し、他の多報酬手法で見られる訓練後期の性能低下は観察されませんでした。ツール呼び出しタスク（Qwen2.5-1.5B/3B、ルールベース制約）でも、RVPOは制約へのより良い遵守を示しました。

RVPOの提案は、バリアンス正則化による制約無視の緩和を通じて、多目的アライメントに新しいリスクセンシティブなフレームワークを提供します。この手法は、さまざまなモデル規模で安定した性能向上を示し、汎用能力を犠牲にしません。本研究は、より信頼性が高く安全なAIシステムの開発に貢献することが期待されます。