2026-06-05 05:42 UTC+8站內改寫3 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

NVIDIA AI釋出Nemotron 3 Ultra：一個開放的550B混合專家混合Mamba-Transformer用於長時間執行的智慧體

NVIDIA釋出了Nemotron 3 Ultra，這是一個550B總引數（55B活躍）的開放混合專家（MoE）模型，採用混合Mamba-Attention架構，專為長時間執行的智慧體設計。它支援100萬token的上下文，推理吞吐量比同類開放LLM高出約6倍，同時保持相同精度，並附帶開放權重、訓練資料和配方，採用OpenMDW-1.1許可。

來源MarkTechPost作者: Asif Razzaq

NVIDIA釋出了Nemotron 3 Ultra，這是其Nemotron 3系列中最大的模型，專門針對長時間執行的智慧體問題設計。這些智慧體需要規劃、呼叫工具並在多個回合中進行推理。隨著智慧體執行時間增長，令牌數量增加，推理成本也隨之上升。Nemotron 3 Ultra旨在保持高精度的同時，使推理更快、更便宜。

Nemotron 3 Ultra是一個5500億總引數的混合專家（MoE）模型，每令牌僅啟用550億引數。MoE設計提高了每活躍引數的精度。它採用混合Mamba-Attention架構，而非純Transformer。Mamba層以亞二次方規模處理長序列，而少量注意力層則保留以在大上下文中進行精確召回。

該模型在20萬億文本令牌上進行預訓練，然後將上下文擴充套件到100萬令牌。後訓練採用監督微調（SFT）、強化學習（RL）和多教師線上策略蒸餾（MOPD）。NVIDIA團隊報告，與同類開放LLM相比，推理吞吐量提高了約6倍，同時保持相同精度。

架構細節包括108層、模型維度8192、64個查詢頭和僅2個鍵值頭，從而保持KV快取較小。每個MoE層有512個專家，每令牌啟用前22個。三個關鍵設計選擇突出：LatentMoE透過犧牲隱藏維度寬度，以固定推理成本獲得更多路由專家；多令牌預測（MTP）在一次前向傳播中預測多個未來令牌，實現原生推測解碼；NVFP4預訓練使用E2M1 4位資料型別和二維塊量化權重，這是迄今為止最大規模的穩定、精確NVFP4訓練演示。

預訓練採用Warmup-Stable-Decay學習率排程，分為兩個階段：前15萬億令牌偏向多樣性，最後5萬億令牌偏向高質量資料。NVIDIA還發布了新的領域特定預訓練資料集，包括1730億重新整理GitHub程式碼令牌。在Nemotron 3 Nano消融實驗中，一個合成法律集將代理LegalBench平均分從64.6提升至74.7，一個基於維基的事實尋求集將代理SimpleQA從40.2提升至50.2。

後訓練釋出規模也很大：NVIDIA新增1000萬SFT樣本和100萬RL任務，以及15個新RL環境。累計Nemotron開放總數達到5000萬SFT樣本、200萬RL任務和55個RL環境。

訓練過程中並非一帆風順：NVIDIA記錄了兩個損失發散事件。第一個接近8萬億令牌，根源在於將輸出層梯度減少從FP32改為BF16，導致MTP梯度在BF16的7位尾數中有效丟失。恢復為FP32梯度減少後訓練重新穩定。第二個發散接近16萬億令牌，未確認根本原因，NVIDIA透過提前退火學習率並削減總令牌數至20萬億來緩解。

後訓練流程包括SFT、統一RLVR、MOPD預熱、MOPD和MTP提升，整個迴圈可重複多個週期。RLVR代表帶可驗證獎勵的強化學習，同時在多個環境中訓練：終端使用、軟體工程、搜尋、數學、程式碼、安全等。MOPD是主要的後訓練新方法：混合環境RLVR會隨著環境數量增加而稀釋學習訊號，因此NVIDIA訓練了10多個領域專業教師模型。在MOPD期間，學生模型在各領域生成自己的軌跡，每個軌跡由匹配的教師用密集的令牌級指導評分。

Nemotron 3 Ultra支援三種推理模式：推理關閉、常規和中等努力。中等努力模式使用約2.5倍更少的令牌，精度下降約7%。在基準測試中，Nemotron 3 Ultra在智慧體任務上得分：PinchBench 90.0，ProfBench（搜尋）56.0，SWE-Bench Verified 71.9，Terminal Bench 2.1得56.4（Kimi-K2.6領先67.2）。在推理上，IOI 2025得570.0，AA-Omniscience得78.7（最高非幻覺分數）。長上下文在100萬令牌下RULER得分94.7。

在8K輸入/64K輸出設定下，NVFP4在GB200上，Nemotron 3 Ultra的吞吐量是GLM-5.1的5.9倍，是Kimi-K2.6的4.8倍，是Qwen-3.5的1.6倍。NVIDIA還報告任務完成成本降低高達30%，來自SWE-Bench和Terminal Bench上每回合更少的令牌。

量化方面，NVIDIA釋出了單個NVFP4檢查點。在Blackwell上以原生FP4數學執行，在Hopper上以W4A16執行。最終方案每元素5.03位，混合NVFP4路由專家與FP8共享專家和Mamba線性層，注意力層保持BF16。

關鍵要點：Nemotron 3 Ultra是一個550B開放MoE（55B活躍），採用混合Mamba-Attention設計用於長時間執行的智慧體；NVIDIA報告推理吞吐量高達同類開放LLM的約6倍；100萬令牌上下文結合最高非幻覺分數；後訓練以MOPD為中心；權重、訓練資料和配方以OpenMDW-1.1開放。