DeepSeek、次世代R2モデルを示唆、SPCTによる推論スケーリングの新手法を公開
DeepSeek AIは、汎用報酬モデルの推論時スケーラビリティを向上させる新技術を詳述した研究論文を発表し、次世代モデルR2の差し迫った登場を示唆した。
DeepSeek AIは、大規模言語モデル分野の有力企業として、推論フェーズにおける汎用報酬モデル(GRM)のスケーラビリティを強化する新技術を詳述した研究論文を発表しました。同時に、次世代モデルR2の差し迫った登場を示唆し、AIコミュニティの期待を高めています。
論文「推論時の汎用報酬モデリングのスケーリング」では、GRMが動的に原理と批評を生成することで報酬生成を最適化する新しい手法を紹介しています。これは、リジェクションファインチューニングとルールベースのオンライン強化学習によって実現されます。この進展は、OpenAIのo1などのモデルの登場に続き、LLMのスケーリングパラダイムが事前学習から事後学習、特に推論フェーズへと移行している時期に起こっています。o1は、ユーザーに応答する前に長い内部思考連鎖を生成し、推論プロセスを洗練させ、さまざまな戦略を探求し、自身のエラーを特定します。DeepSeek自身のR1シリーズモデルは、純粋な強化学習トレーニング(教師ありファインチューニングに依存しない)がLLMの推論能力に大きな飛躍をもたらす可能性をさらに検証しました。
LLMの基本的な「次のトークン予測」メカニズムは広範な知識を提供しますが、深い計画と長期結果の予測能力が欠如していることが多く、近視眼的な決定をしがちです。強化学習は重要な補完として機能し、LLMに「内部世界モデル」を提供します。これにより、異なる推論パスの潜在的な結果をシミュレートし、これらのパスの品質を評価して優れたソリューションを選択し、最終的により体系的な長期計画を可能にします。LLMと強化学習の相乗効果は、複雑な問題を解決する能力を高める鍵としてますます認識されています。
清華大学の呉易准教授は、最近のポッドキャストでLLMと強化学習の関係を「乗算関係」に例えました。強化学習は意思決定に優れていますが、本質的に理解を欠いています。理解の構築は事前学習モデルに依存しており、その上で強化学習が意思決定能力をさらに最適化できます。この「乗算関係」は、事前学習中に強力な理解、記憶、論理的推論の基盤が構築された場合にのみ、強化学習がその可能性を完全に引き出し、完全な知的エージェントを作成できることを示唆しています。
包括的な調査論文「強化学習で強化されたLLM:サーベイ」では、強化学習を使用してLLMをトレーニングする典型的な3段階のプロセスを概説しています。まず、報酬モデルをトレーニングして人間の選好を近似し、さまざまなLLM出力を評価します。次に、各ファインチューニング反復で、LLMは与えられた命令に対して複数の応答を生成し、各応答がトレーニングされた報酬モデルを使用してスコアリングされます。最後に、強化学習最適化手法を使用して、選好スコアに基づいてモデルの重みを更新し、応答生成を改善します。強化学習を統合することで、大規模言語モデルは変化する選好スコアに基づいて動的に調整でき、単一の所定の回答の制限を超えることができます。
DeepSeekのSPCT:LLM向け強化学習のスケーリング課題への対応
事後学習における強化学習の成功はLLM性能向上の突破口となっていますが、強化学習アルゴリズム自体にはまだ改善の余地が大きく、「スケーリング則」はまだ初期段階にあります。従来のスケーリング則がデータと計算量の増加に焦点を当てて性能を向上させるのに対し、強化学習のスケーリング則は、サンプルスループット、モデルパラメータサイズ、トレーニング環境の複雑さなど、より複雑な要因の影響を受けます。強化学習のスケーリングにおける大きな障害の一つは報酬のスパース性です。報酬モデルは重要なコンポーネントであり、正確な報酬信号を生成することが最も重要です。報酬モデルの汎化と連続性の両方を達成することが重要な焦点です。
DeepSeekと清華大学の研究者は、最近の研究でこの課題に取り組み、推論時における報酬モデルのスケーラビリティと汎化を探求しました。彼らが提案する自己原則批評チューニング(SPCT)手法は、推論時の汎用報酬モデリングのスケーラビリティを向上させることを目的としています。SPCT手法には2つの主要な段階があります。リジェクションファインチューニング(コールドスタートとして機能し、GRMが正しい形式とタイプで原則と批評を生成するように適応させる)とルールベースのオンライン強化学習(原則と批評の生成をさらに最適化する)です。
効果的な推論時スケーリングを実現するために、研究者は並列サンプリングを使用して計算利用を最大化しました。複数回サンプリングすることで、DeepSeek-GRMは異なる原則と批評のセットを生成し、投票を通じて最終的な報酬を選択できます。さらに、投票プロセスを導くためにメタ報酬モデル(Meta RM)がトレーニングされ、スケーリング性能がさらに向上します。Meta RMは、DeepSeek-GRMによって生成された原則と批評の正確性を識別するように設計されたポイントツーポイントのスカラー報酬モデルです。実験結果は、SPCTがGRMの品質とスケーラビリティを大幅に向上させ、複数の総合的なRMベンチマークで既存の手法やモデルを有意なドメインバイアスなしに凌駕することを示しました。
将来を見据えて:DeepSeek R2の地平線
研究論文は報酬モデリングと推論時スケーリングの進歩に焦点を当てていますが、DeepSeekのR1シリーズの言及と暗黙の進展は、同社が次世代モデルR2を積極的に開発していることを示唆しています。DeepSeekが推論能力向上のために純粋な強化学習を重視していることを考えると、R2が最新のスケーラブル報酬モデルに関する研究から得られた洞察を組み込み、さらに発展させることが大いに期待されます。AIコミュニティは、DeepSeek R2に関するさらなる発表を熱心に待ち、同社が強化学習と推論最適化への革新的なアプローチをどのように活用して大規模言語モデルの能力の限界を押し広げるかを注目するでしょう。スケーラブル報酬モデルへの焦点は、次期フラッグシップモデルにおいて、さらに洗練された自己評価と改善メカニズムが重視される可能性を示唆しています。
論文「推論時の汎用報酬モデリングのスケーリング」はarXivで入手できます。