AI News HubLIVE
サイト内リライト4 分で読了

DeepSeek-V4のトレーニングシステムに関するノート

DeepSeek-V4のトレーニングシステムは、アーキテクチャ、ルーティング、報酬モデリング、推論モード、蒸留、エージェント実行をトレーニングループに統合します。主な革新には、ハイブリッドアテンション(CSA/HCA)、安定性のための先見的ルーティング、同一重みからの3つの推論モード、生成的報酬モデル、全語彙ロジットを使用したオンポリシー蒸留、ランタイムをループに取り込むエージェンティックトレーニングが含まれます。この傾向は、固定レシピがプログラマブルなトレーニングインフラに取って代わられることを示しています。

DeepSeek-V4のトレーニングシステムは、単一のベンチマーク数値よりも、その周囲のシステム全体の形状において興味深いものです。論文は、アーキテクチャ、ルーティング、報酬モデリング、推論モード、蒸留、エージェント実行がすべてトレーニングループの一部となることを示しています。

トレーニングインフラにとって有用な教訓は明らかです。固定レシピでは不十分であり、研究者はプログラマブルなループをますます必要としています。プラットフォームはその下で分散実行、推論統合、チェックポイント、スケーリングを処理します。その柔軟性をサポートすることが、FireworksトレーニングAPIの背後にある中核的な設計原理です。

1. 長コンテキストはメモリ階層になる

DeepSeek-V4は、圧縮スパースアテンション(CSA)と高圧縮アテンション(HCA)を交互に使用します。CSAはKVエントリを圧縮し、スパースなtop-k選択を行います。HCAはより積極的に圧縮しますが、圧縮されたメモリに対して密なアテンションを維持します。重要なのは「より長いコンテキスト」だけではありません。モデル/ランタイムの共同設計、つまりアテンションパターン、KVレイアウト、精度、スパース選択、推論カーネルがすべて一致する必要があります。トレーニングも同じ問題を抱えています。サービングがカスタムカーネルと圧縮キャッシュを使用する場合、トレーニング中の評価はサービングに十分に近く、間違ったシステムに対して最適化しないようにする必要があります。

トレーニングプラットフォーム設計ノート:ここで、トレーニング形状、チェックポイント昇格、デプロイメントへの重み同期が重要になります。アーキテクチャ固有の作業は損失関数だけではありません。プラットフォームは適切なトレーナーを起動し、使用可能なチェックポイントを保存し、ユーザーにサービスを提供するのと同じモデル/ランタイムの組み合わせを評価する必要があります。

2. MoEルーティングは安定性の問題

最も興味深い事前学習のトリックは先見的ルーティングです。DeepSeekは、損失スパイクがMoE外れ値とルーティングに関連していると報告しています。彼らの修正は、特徴とルートを分離します。ステップtで、特徴は現在の重みで計算されますが、ルーティングインデックスは古い重みθ_{t-δ}から取得されます。モデルを2回実行することを避けるために、将来のバッチをプリフェッチし、古いルーターでルーティング決定を早期に計算し、それらのルートをキャッシュして後で再利用します。このモードがアクティブな間は約20%のオーバーヘッドがあると報告されており、スパイク検出器がロールバックをトリガーした場合にのみオンになります。

これはクリーンな新しい目的関数ではありません。条件付きランタイム介入です:不安定性を検出し、ロールバックし、ルーティング動作を変更し、サイドチャネルデータをキャッシュし、通常のトレーニングに戻ります。

3. 推論努力は訓練された行動

DeepSeek-V4は同じ重みから3つのモードを公開します:非思考、高思考、最大思考。これらは異なるRL設定、長さペナルティ、コンテキストウィンドウ、応答フォーマットで訓練されています。最大思考はまた、徹底的な推論を促す明示的なシステム指示を受け取ります。これにより、「推論努力」は神秘的なものではなくなります。それは単なるランタイムフラグではなく、データ、報酬設計、フォーマット、評価によって支えられた行動契約です。

4. 報酬モデリングが生成的になる

検証が難しいタスクのために、DeepSeekは従来のスカラー報酬モデルを放棄し、生成的報酬モデル(GRM)を使用すると述べています。アクターモデル自身が判定者となり、RLは生成と並行してその評価行動を最適化します。これは、多くの価値あるタスクが完全一致チェックでスコアリングしにくいため重要です:執筆、デザイン、ツール使用、研究統合、主観的品質、長期エージェント行動など。これらの場合、評価はスカラー予測よりも熟考のように見えます。自己判定モデルは盲点や報酬ハッキングを学習するリスクがありますが、方向性は重要です。報酬は別途訓練されたスカラー報酬モデルから、RLで最適化されたモデル生成評価行動へと移行しています。

5. 専門家を先に、その後オンポリシー蒸留

DeepSeekは最終モデルを1つの混合RL段階で訓練しません。まずドメイン専門家を訓練します。各ドメインについて、高品質ドメインデータによる教師付きファインチューニングから始め、ドメイン固有のプロンプトと報酬信号でGRPOを実行します。これらの専門家はその後、オンポリシー蒸留(OPD)を通じて統合されます。学生は自身のロールアウトをサンプリングし、10以上の教師モデルがその軌跡上で目標分布を提供します。これにより、重みを直接マージしたり、1つの複合報酬がすべての行動を同時に生成することを期待することを回避します。高価な部分は全語彙ロジット蒸留です。サンプリングされたトークンのみを一致させるのではなく、完全な教師分布を一致させます。それを実現可能にするために、教師の最終層隠れ状態をキャッシュし、関連する教師ヘッドでオンザフライでロジットを再構築します。

6. エージェンティックトレーニングがランタイムをループに引き込む

DeepSeek-V4はまた、ツール使用会話における推論状態の処理方法を変更します。エージェンティックワークフローでは、ユーザー/ツール境界を越えて推論トレースを保持し、各ユーザーメッセージ後にフラッシュしません。通常のチャットでは、コンテキストを簡潔に保つために以前の推論を依然として破棄します。また、クイックインストラクションを導入します:メインコンテキストに追加される特別なトークンで、検索/非検索、クエリ生成、ドメイン分類、URL読み取りなどの補助決定を行います。別のコントローラーモデルを呼び出して冗長なプリフィルを支払う代わりに、これらの決定はメインモデルのKVキャッシュを再利用します。最後に、エージェンティックトレーニングにはサンドボックスが必要です。DeepSeekは、トークングラニュラリティの書き込み前ログを持つプリエンプティブルなロールアウトサービスと、サンドボックス実行のためのDeepSeek Elastic Compute(DSec)を説明しています。

これが意味すること

DeepSeek-V4のこれら6つの要素に共通する糸は同じです:重要なトレーニング決定がランタイム、評価、インフラにまで及んでいます。アーキテクチャはサービングと共同設計され、ルーティングはサイドチャネル状態を持つ安定性問題となり、推論努力、報酬、蒸留、ツール使用はすべてロールアウト、判定者、チェックポイント、実行ログに対するプログラマブルループになります。

それがFireworksトレーニングAPIの背後にある賭けです:ループを公開し、その下のシステムを処理します。全語彙OPD、歴史的ルーターキャッシュ、DSecスタイルのサンドボックス化ロールアウトサービスは、今日ほとんどのプラットフォームが公開するよりも多くのプリミティブを必要としますが、方向性は議論の余地がありません:固定トレーニングパイプラインはプログラマブルトレーニングシステムに取って代わられつつあります。