AI News HubLIVE
站内改写3 分で読了

Nemotron事前学習におけるタスクシード型合成Q&A生成

NVIDIAチームは、公開タスクの学習分割をシードとして使用し、構造化されたQ&Aデータを生成するタスクシード型合成データ生成パイプラインを開発し、Nemotronシリーズモデルの後期学習に活用した。100Bトークンの継続実験では、MMLU-Proで+1.8、コード平均で+1.9、常識理解で+1.6、GPQAで+11.1の改善が見られ、数学は安定していた。パイプラインはシード収集、レコード正規化、類似例生成、回答強化、フィルタリングの5段階で構成され、タスクファミリ間の転移学習によりモデルの再利用可能な行動を強化する。

NVIDIAチームは、Nemotronシリーズモデルの事前学習において、タスクシード型の合成Q&A生成手法(Task-Seeded Synthetic Q&A Generation)を開発した。この手法は、公開タスクの訓練分割を「シード」として使用し、五段階のパイプラインを通じて構造化された合成Q&Aデータを生成し、モデルの後期学習フェーズに組み込むことで、知識集約的および推論集約的なタスクでの性能を向上させる。

大規模言語モデルの開発において、データの質と多様性は極めて重要である。従来のウェブ、コード、数学などの多様なデータは広範な基盤を提供するが、構造化された学習信号が不足している。タスクシード型合成データは、明確な情報要求、制約された応答空間、および証拠と回答を結びつける説明を含むコンパクトでタスク構造化された例を提供することで、このギャップを埋める。Nemotron-3 Nanoモデルを用いた100Bトークンの継続実験では、タスクシードSDGの導入により、MMLU-Proが+1.8、平均コード性能が+1.9、常識理解が+1.6、GPQAが+11.1向上し、平均数学性能は安定していた。

パイプラインは以下の五段階で構成される。第一に、lm-eval-harnessから約70の公開タスクデータセット(約700サブタスクを含む)の適切な訓練分割をシードとして収集する。第二に、異種のタスクレコードを統一されたJSONL形式に正規化する。第三に、シード例に基づき、内容は異なるが能力を保持した新しい質問を生成する。第四に、最終回答、関連する推論、コンテキストを追加して回答を強化する。第五に、スキーマチェック、フォーマットチェック、重複排除、タスク固有の回答検証を通じてフィルタリングおよびパッケージ化する。多肢選択タスクは検証が容易である一方、生成タスクはより慎重な処理が必要である。

パイプラインの設計思想は転移学習に基づいている。知識集約型と推論集約型の両方のタスクファミリをカバーすることで、モデルは多様なシードタスクから再利用可能な行動(情報ニーズの特定、ドメイン知識の適用、代替案の区別、応答制約の遵守、多段階推論など)を学習できる。このクロスタスクファミリの転移学習は、単一データソースの表面的な形式への過適応を防ぎ、異なるタスク間での汎化能力を高める。

実験結果は、推論とコンテキストの追加が合成データの効果を大幅に高めることを示している。内部アブレーション研究では、コンテキスト強化版がARC-Challenge、CommonsenseQA、PIQAなどのベンチマークで改善を示し、特にGPQA-Diamond CoTは34.85から45.96へ、MMLU-Pro 5-shotは64.45から66.89へ向上した。これは、回答単独では弱い学習信号である一方、タスク関連の知識と推論経路を追加することで、モデルの学習をより効果的に導けることを示している。

実際の学習では、タスクシード型合成データはNemotronシリーズモデルの後期学習に混合された。100Bトークンの継続実験では、複数の能力グループで改善が見られ、その改善は直接関連するタスクに限定されなかった。例えば、MMLU-ProやGPQAの改善が顕著である一方、コードや常識理解も同様に向上し、数学は安定していた。これは、タスクシードデータが特定のベンチマークだけでなく、広範な汎化能力の向上をもたらすことを示唆している。

チームはいくつかの実践的知見をまとめている。広範なシードカバレッジが汎化を改善すること、コンテキストと推論が回答の価値を高めること、出力形式(オプションラベルではなく回答テキスト)が学習信号に影響すること、多肢選択タスクは検証が容易だが生成タスクは慎重な処理が必要であること、混合比率は大タスクによる支配を避けるために注意深く設計すべきこと、ベンチマークの改善は広範な能力保持と併せて評価すべきことなどである。全体として、タスクシード型合成データは、モデル構築者にとって後期学習で重要なスキルをターゲットにする実用的な手段を提供する。