AI News HubLIVE
站内改写4 分で読了

NVIDIA AI、Nemotron 3 Ultraをリリース:長時間エージェント向けのオープンな550B混合エキスパート・ハイブリッドMamba-Transformer

NVIDIAは、Nemotron 3 Ultraをリリースしました。これは、550B総パラメータ(55Bアクティブ)のオープンな混合エキスパート(MoE)モデルで、ハイブリッドなMamba-Attentionアーキテクチャを採用し、長時間実行エージェント向けに設計されています。100万トークンのコンテキストを備え、同等のオープンLLMと比較して最大約6倍の推論スループットを同等の精度で実現し、OpenMDW-1.1の下でオープンな重み、トレーニングデータ、レシピを提供します。

ソースMarkTechPost著者: Asif Razzaq

NVIDIAは、Nemotron 3 Ultraをリリースしました。これはNemotron 3ファミリーで最大のモデルであり、長時間実行されるエージェントという特定の問題を対象としています。これらのエージェントは計画、ツール呼び出し、複数ターンにわたる推論を行います。エージェントの実行時間が長くなるにつれて、トークン数が増加し、推論コストが上昇します。Nemotron 3 Ultraは、高精度を維持しながら推論を高速化し、コストを削減するように設計されています。

Nemotron 3 Ultraは、5500億総パラメータの混合エキスパート(MoE)モデルです。トークンあたりアクティブなパラメータは550億のみです。MoE設計は、アクティブパラメータあたりの精度を向上させます。これは、純粋なTransformerではなく、ハイブリッドなMamba-Attentionアーキテクチャを採用しています。Mamba層は準二次スケーリングで長いシーケンスを処理し、少数のアテンション層が大きなコンテキストでの正確なリコールのために保持されています。

このモデルは20兆テキストトークンで事前学習され、コンテキストは100万トークンに拡張されました。事後学習は、教師ありファインチューニング(SFT)、強化学習(RL)、およびマルチ教師オン・ポリシー蒸留(MOPD)を使用して行われました。NVIDIAチームは、同等のオープンLLMと比較して最大約6倍の推論スループットを同等の精度で達成したと報告しています。

アーキテクチャの詳細:108層、モデル次元8192、64クエリヘッド、わずか2キー・バリューヘッドでKVキャッシュを小さく維持。各MoE層には512のエキスパートがあり、トークンあたり上位22がアクティブになります。3つの設計上の選択が際立っています:LatentMoEは、隠れ次元の幅を犠牲にして、固定推論コストでより多くのルーティングエキスパートを提供します。マルチトークン予測(MTP)は、1回のフォワードパスで複数の将来トークンを予測し、ネイティブな投機的復号を可能にします。NVFP4事前学習は、E2M1 4ビットデータ型と2次元ブロック量子化を重みに使用し、これまでで最大規模の安定した正確なNVFP4トレーニングの実証です。

事前学習は、Warmup-Stable-Decay学習率スケジュールを使用して20兆トークンで行われ、2つのフェーズに分割されました:最初の15兆トークンは多様性に偏り、最後の5兆トークンは高品質データに偏りました。NVIDIAはまた、1730億のリフレッシュされたGitHubコードトークンを含む新しいドメイン固有の事前学習データセットをリリースしました。Nemotron 3 Nanoアブレーションでは、合成法務セットが代理LegalBench平均を64.6から74.7に引き上げ、Wikiベースの事実追求セットが代理SimpleQAを40.2から50.2に引き上げました。

事後学習のリリースも大規模です:NVIDIAは1000万の新しいSFTサンプルと100万の新しいRLタスク、15の新しいRL環境を追加しました。累積Nemotronオープン総数は、5000万SFTサンプル、200万RLタスク、55のRL環境に達します。

トレーニングは完全にスムーズではありませんでした:NVIDIAは2つの損失発散を文書化しています。最初のものは8兆トークン付近で、出力層勾配縮小をFP32からBF16に変更したことに起因し、MTP勾配がBF16の7ビット仮数で実質的に失われました。FP32勾配縮小に戻すことでトレーニングは再安定化しました。2番目の発散は16兆トークン付近で、確認された根本原因はなく、NVIDIAは学習率を早期にアニーリングし、トークン総数を20兆に削減することで緩和しました。

事後学習パイプラインは、SFT、統一RLVR、MOPDウォームアップ、MOPD、およびMTPブースティングを実行し、ループ全体を複数サイクル繰り返すことができます。RLVRは検証可能な報酬による強化学習を意味し、ターミナル使用、ソフトウェアエンジニアリング、検索、数学、コード、安全性など、複数の環境で同時にトレーニングします。MOPDが主要な新しい事後学習手法です:混合環境RLVRは環境数が増えるにつれて学習信号を希釈するため、NVIDIAは10以上のドメイン特化教師モデルをトレーニングしました。MOPD中、学生モデルはドメイン全体で自身のロールアウトを生成し、各ロールアウトは一致する教師によって密なトークンレベルのガイダンスでスコアリングされます。

Nemotron 3 Ultraは3つの推論モードをサポートしています:推論オフ、通常、中程度の努力。中程度の努力モードは約2.5倍少ないトークンを使用し、精度は約7%低下します。ベンチマークでは、Nemotron 3 UltraはエージェントタスクでPinchBench 90.0、ProfBench(検索)56.0、SWE-Bench Verified 71.9、Terminal Bench 2.1で56.4(Kimi-K2.6が67.2でリード)を記録しました。推論では、IOI 2025で570.0、AA-Omniscienceで78.7(セット内最高の非幻覚スコア)を記録。長いコンテキストは100万トークンでRULER 94.7を維持。

8K入力/64K出力設定で、NVFP4 on GB200において、Nemotron 3 UltraのスループットはGLM-5.1の5.9倍、Kimi-K2.6の4.8倍、Qwen-3.5の1.6倍でした。NVIDIAはまた、SWE-BenchとTerminal Benchでのターンあたりのトークン数削減により、タスク完了コストが最大30%低減されたと報告しています。

量子化に関して、NVIDIAは単一のNVFP4チェックポイントをリリースしています。BlackwellではネイティブFP4演算で動作し、HopperではW4A16で動作します。最終的なソリューションは5.03ビット/要素で、NVFP4ルーティングエキスパートとFP8共有エキスパートおよびMamba線形層、アテンション層はBF16のままです。

主なポイント:Nemotron 3 Ultraは550BのオープンMoE(55Bアクティブ)で、長時間実行エージェント向けのハイブリッドMamba-Attention設計を使用。NVIDIAは同等のオープンLLMと比較して最大約6倍の推論スループットを報告。100万トークンのコンテキストとセット内最高の非幻覚スコアを組み合わせ。事後学習はMOPDが中心。重み、トレーニングデータ、レシピはOpenMDW-1.1の下でオープンに提供されます。