Nemotron預訓練中的任務種子合成問答生成
NVIDIA團隊開發了一種任務種子合成資料生成(SDG)管道,利用公開任務訓練集作為種子,生成結構化的問答資料,用於Nemotron系列模型的後期訓練。在100B token的延續實驗中,該方法在MMLU-Pro、程式碼、常識理解和GPQA上分別提升+1.8、+1.9、+1.6和+11.1,數學保持穩定。管道包括種子收集、記錄歸一化、生成類似示例、答案豐富和過濾打包五個階段,並透過遷移學習增強模型的可複用行為。
NVIDIA團隊近期發表了一篇技術文章,詳細介紹了他們在Nemotron系列模型預訓練中採用的一種任務種子合成問答生成方法(Task-Seeded Synthetic Q&A Generation)。該方法的核心是使用公開任務訓練集作為“種子”,透過一個五階段管道生成結構化的合成問答資料,用於模型的後期訓練階段,以提升模型在知識密集和推理密集任務上的表現。
在大型語言模型開發中,資料質量與多樣性至關重要。傳統的網路、程式碼、數學等多領域資料提供了廣泛的基礎,但缺乏結構化的學習訊號。任務種子合成資料透過提供緊湊、任務結構化的示例來彌補這一不足,這些示例包含明確的資訊需求、受限的響應空間以及將證據與答案聯絡起來的解釋。在一項針對Nemotron-3 Nano模型的100B token延續實驗中,採用任務種子SDG使得MMLU-Pro提升了1.8分,平均程式碼能力提升了1.9分,常識理解提升了1.6分,而GPQA更是大幅提升了11.1分,同時平均數學能力保持穩定。
該生成管道包括五個關鍵階段:首先,從lm-eval-harness中收集約70個公開任務資料集(包含約700個子任務)的合適訓練分割作為種子;其次,將這些異構任務記錄歸一化為統一的JSONL格式;第三,基於種子示例生成新的、內容不同但能力保持的問題;第四,透過新增最終答案、相關推理或上下文來豐富答案;最後,透過模式檢查、格式檢查、去重和任務特定的答案驗證進行過濾和打包。對於多項選擇任務,驗證更為直接,而生成式任務則需要更謹慎的處理。
管道的設計理念基於遷移學習:透過覆蓋多個任務領域(如知識密集型和推理密集型),模型可以從廣泛的種子任務中學習可複用的行為,例如識別資訊需求、應用領域知識、區分候選答案、遵循響應約束、進行多步推理等。這種跨任務家族的遷移學習不僅避免了模型過度適應單一資料來源的表面格式,還增強了模型在不同任務間的泛化能力。
實驗結果表明,上下文和推理的加入顯著提升了合成資料的效果。在內部消融實驗中,上下文豐富版本在ARC-Challenge、CommonsenseQA、PIQA等基準上均有提升,尤其是GPQA-Diamond CoT從34.85提升至45.96,MMLU-Pro 5-shot從64.45提升至66.89。這證明了答案本身作為訓練訊號的侷限性,而增加任務相關的知識和推理路徑可以更有效地指導模型學習。
在實際訓練中,任務種子合成資料被混合到Nemotron系列模型的後期訓練中。100B token的延續實驗顯示,該方法在多個能力組上帶來提升,且提升不僅限於直接相關的任務。例如,雖然MMLU-Pro和GPQA的改進顯著,但程式碼和常識理解也同樣受益,而數學能力保持穩定。這表明任務種子資料能夠帶來廣泛的泛化能力提升,而非僅僅針對特定基準。
團隊總結了幾個實踐發現:廣泛的種子覆蓋有助於泛化;上下文和推理增強答案的價值;輸出格式(如答案文字而非選項標籤)顯著影響訓練訊號;多項選擇任務易於驗證而生成任務需謹慎處理;混合比例需要精心設計以避免大任務主導;基準改進應與廣泛能力保留一併評估。總之,任務種子合成資料為模型構建者提供了一種實用的手段,能夠有針對性地提升後期訓練中所需的關鍵技能。