Nemotron 3 Ultra:開放、高效的混合專家模型,結合Mamba與Transformer用於智慧體推理
Nemotron 3 Ultra是NVIDIA釋出的一款550億總引數、55億活躍引數的混合專家語言模型,融合了Mamba和Transformer架構。在20萬億token上預訓練,支援100萬token上下文,推理吞吐量比現有開源LLM高6倍,精度相當。模型開源,適用於長時自主智慧體任務。
NVIDIA近日釋出了Nemotron 3 Ultra,這是一款具有里程碑意義的語言模型。該模型採用混合專家(MoE)架構,總引數量高達5500億,但每次推理僅啟用55億引數,從而在保持強大能力的同時實現了極高的效率。Nemotron 3 Ultra創新性地融合了Mamba和Transformer兩種架構,旨在為自主智慧體任務提供高效且強大的推理能力。
該模型在20萬億個文本token上進行了預訓練,隨後透過上下文擴充套件技術將支援長度提升至100萬token,使其能夠一次性處理超長序列。後訓練階段採用了監督微調(SFT)、強化學習(RL)和多教師線上策略蒸餾(MOPD)等多種先進技術。此外,模型還整合了LatentMoE、多token預測(MTP)、NVFP4預訓練、多環境RLVR以及推理預算控制等關鍵技術,共同提升了模型的效能和效率。
在效能方面,Nemotron 3 Ultra的推理吞吐量比當前最先進的開源大語言模型高出約6倍,同時保持了同等的準確性。這種效率與精度的結合,加上超長的上下文支援,使其特別適合需要長時間執行的自主智慧體任務,例如複雜推理和持續對話。NVIDIA秉承開放精神,已在HuggingFace上開源了Nemotron 3 Ultra的基礎版、後訓練版和量化版檢查點,並提供了訓練資料和詳細配方。這一舉措將有力推動AI社群在高效模型和智慧體系統方面的進一步研究與應用,有望成為開源大語言模型的新標杆。