Nemotron 3 Ultra:開放、高效的混合專家模型,結合Mamba與Transformer用於智能體推理
Nemotron 3 Ultra是NVIDIA發佈的一款550億總參數、55億活躍參數的混合專家語言模型,融合了Mamba和Transformer架構。在20萬億token上預訓練,支持100萬token上下文,推理吞吐量比現有開源LLM高6倍,精度相當。模型開源,適用於長時自主智能體任務。
NVIDIA近日發佈了Nemotron 3 Ultra,這是一款具有里程碑意義的語言模型。該模型採用混合專家(MoE)架構,總參數量高達5500億,但每次推理僅激活55億參數,從而在保持強大能力的同時實現了極高的效率。Nemotron 3 Ultra創新性地融合了Mamba和Transformer兩種架構,旨在為自主智能體任務提供高效且強大的推理能力。
該模型在20萬億個文本token上進行了預訓練,隨後通過上下文擴展技術將支持長度提升至100萬token,使其能夠一次性處理超長序列。後訓練階段採用了監督微調(SFT)、強化學習(RL)和多教師在線策略蒸餾(MOPD)等多種先進技術。此外,模型還集成了LatentMoE、多token預測(MTP)、NVFP4預訓練、多環境RLVR以及推理預算控制等關鍵技術,共同提升了模型的性能和效率。
在性能方面,Nemotron 3 Ultra的推理吞吐量比當前最先進的開源大語言模型高出約6倍,同時保持了同等的準確性。這種效率與精度的結合,加上超長的上下文支持,使其特別適合需要長時間運行的自主智能體任務,例如複雜推理和持續對話。NVIDIA秉承開放精神,已在HuggingFace上開源了Nemotron 3 Ultra的基礎版、後訓練版和量化版檢查點,並提供了訓練數據和詳細配方。這一舉措將有力推動AI社區在高效模型和智能體系統方面的進一步研究與應用,有望成為開源大語言模型的新標杆。