AI News HubLIVE
站内改写3 分鐘閱讀

NVIDIA AI釋出Nemotron 3 Ultra:一個開放的550B混合專家混合Mamba-Transformer用於長時間執行的智慧體

NVIDIA釋出了Nemotron 3 Ultra,這是一個550B總引數(55B活躍)的開放混合專家(MoE)模型,採用混合Mamba-Attention架構,專為長時間執行的智慧體設計。它支援100萬token的上下文,推理吞吐量比同類開放LLM高出約6倍,同時保持相同精度,並附帶開放權重、訓練資料和配方,採用OpenMDW-1.1許可。

來源MarkTechPost作者: Asif Razzaq

NVIDIA釋出了Nemotron 3 Ultra,這是其Nemotron 3系列中最大的模型,專門針對長時間執行的智慧體問題設計。這些智慧體需要規劃、呼叫工具並在多個回合中進行推理。隨著智慧體執行時間增長,令牌數量增加,推理成本也隨之上升。Nemotron 3 Ultra旨在保持高精度的同時,使推理更快、更便宜。

Nemotron 3 Ultra是一個5500億總引數的混合專家(MoE)模型,每令牌僅啟用550億引數。MoE設計提高了每活躍引數的精度。它採用混合Mamba-Attention架構,而非純Transformer。Mamba層以亞二次方規模處理長序列,而少量注意力層則保留以在大上下文中進行精確召回。

該模型在20萬億文本令牌上進行預訓練,然後將上下文擴充套件到100萬令牌。後訓練採用監督微調(SFT)、強化學習(RL)和多教師線上策略蒸餾(MOPD)。NVIDIA團隊報告,與同類開放LLM相比,推理吞吐量提高了約6倍,同時保持相同精度。

架構細節包括108層、模型維度8192、64個查詢頭和僅2個鍵值頭,從而保持KV快取較小。每個MoE層有512個專家,每令牌啟用前22個。三個關鍵設計選擇突出:LatentMoE透過犧牲隱藏維度寬度,以固定推理成本獲得更多路由專家;多令牌預測(MTP)在一次前向傳播中預測多個未來令牌,實現原生推測解碼;NVFP4預訓練使用E2M1 4位資料型別和二維塊量化權重,這是迄今為止最大規模的穩定、精確NVFP4訓練演示。

預訓練採用Warmup-Stable-Decay學習率排程,分為兩個階段:前15萬億令牌偏向多樣性,最後5萬億令牌偏向高質量資料。NVIDIA還發布了新的領域特定預訓練資料集,包括1730億重新整理GitHub程式碼令牌。在Nemotron 3 Nano消融實驗中,一個合成法律集將代理LegalBench平均分從64.6提升至74.7,一個基於維基的事實尋求集將代理SimpleQA從40.2提升至50.2。

後訓練釋出規模也很大:NVIDIA新增1000萬SFT樣本和100萬RL任務,以及15個新RL環境。累計Nemotron開放總數達到5000萬SFT樣本、200萬RL任務和55個RL環境。

訓練過程中並非一帆風順:NVIDIA記錄了兩個損失發散事件。第一個接近8萬億令牌,根源在於將輸出層梯度減少從FP32改為BF16,導致MTP梯度在BF16的7位尾數中有效丟失。恢復為FP32梯度減少後訓練重新穩定。第二個發散接近16萬億令牌,未確認根本原因,NVIDIA透過提前退火學習率並削減總令牌數至20萬億來緩解。

後訓練流程包括SFT、統一RLVR、MOPD預熱、MOPD和MTP提升,整個迴圈可重複多個週期。RLVR代表帶可驗證獎勵的強化學習,同時在多個環境中訓練:終端使用、軟體工程、搜尋、數學、程式碼、安全等。MOPD是主要的後訓練新方法:混合環境RLVR會隨著環境數量增加而稀釋學習訊號,因此NVIDIA訓練了10多個領域專業教師模型。在MOPD期間,學生模型在各領域生成自己的軌跡,每個軌跡由匹配的教師用密集的令牌級指導評分。

Nemotron 3 Ultra支援三種推理模式:推理關閉、常規和中等努力。中等努力模式使用約2.5倍更少的令牌,精度下降約7%。在基準測試中,Nemotron 3 Ultra在智慧體任務上得分:PinchBench 90.0,ProfBench(搜尋)56.0,SWE-Bench Verified 71.9,Terminal Bench 2.1得56.4(Kimi-K2.6領先67.2)。在推理上,IOI 2025得570.0,AA-Omniscience得78.7(最高非幻覺分數)。長上下文在100萬令牌下RULER得分94.7。

在8K輸入/64K輸出設定下,NVFP4在GB200上,Nemotron 3 Ultra的吞吐量是GLM-5.1的5.9倍,是Kimi-K2.6的4.8倍,是Qwen-3.5的1.6倍。NVIDIA還報告任務完成成本降低高達30%,來自SWE-Bench和Terminal Bench上每回合更少的令牌。

量化方面,NVIDIA釋出了單個NVFP4檢查點。在Blackwell上以原生FP4數學執行,在Hopper上以W4A16執行。最終方案每元素5.03位,混合NVFP4路由專家與FP8共享專家和Mamba線性層,注意力層保持BF16。

關鍵要點:Nemotron 3 Ultra是一個550B開放MoE(55B活躍),採用混合Mamba-Attention設計用於長時間執行的智慧體;NVIDIA報告推理吞吐量高達同類開放LLM的約6倍;100萬令牌上下文結合最高非幻覺分數;後訓練以MOPD為中心;權重、訓練資料和配方以OpenMDW-1.1開放。