2026-06-05 06:42 UTC+9サイト内リライト4 分で読了更新: 2026-06-30 22:03 UTC+9

NVIDIA AI、Nemotron 3 Ultraをリリース：長時間エージェント向けのオープンな550B混合エキスパート・ハイブリッドMamba-Transformer

NVIDIAは、Nemotron 3 Ultraをリリースしました。これは、550B総パラメータ（55Bアクティブ）のオープンな混合エキスパート（MoE）モデルで、ハイブリッドなMamba-Attentionアーキテクチャを採用し、長時間実行エージェント向けに設計されています。100万トークンのコンテキストを備え、同等のオープンLLMと比較して最大約6倍の推論スループットを同等の精度で実現し、OpenMDW-1.1の下でオープンな重み、トレーニングデータ、レシピを提供します。

ソースMarkTechPost著者: Asif Razzaq

記事インテリジェンス

エンジニア上級

要点

ハイブリッドMamba-Attentionアーキテクチャを採用。Mamba層は準二次スケーリング、アテンション層は正確なリコールを保証。
総パラメータ550B、トークンあたり55Bのみアクティブ。LatentMoEとマルチトークン予測で効率化。
事後学習はマルチ教師オン・ポリシー蒸留（MOPD）を採用。10以上の専門教師モデルを1つの学生モデルに統合。
3つの推論モードをサポート。中程度の努力モードではトークン数が約2.5倍削減され、精度は約7%低下のみ。

重要な理由

このニュースが重要なのは、ハイブリッドMamba-Attentionアーキテクチャを採用。Mamba層は準二次スケーリング、アテンション層は正確なリコールを保証ためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

このパネルは AI が生成し、正確性を確認済みです。

NVIDIAは、Nemotron 3 Ultraをリリースしました。これはNemotron 3ファミリーで最大のモデルであり、長時間実行されるエージェントという特定の問題を対象としています。これらのエージェントは計画、ツール呼び出し、複数ターンにわたる推論を行います。エージェントの実行時間が長くなるにつれて、トークン数が増加し、推論コストが上昇します。Nemotron 3 Ultraは、高精度を維持しながら推論を高速化し、コストを削減するように設計されています。

Nemotron 3 Ultraは、5500億総パラメータの混合エキスパート（MoE）モデルです。トークンあたりアクティブなパラメータは550億のみです。MoE設計は、アクティブパラメータあたりの精度を向上させます。これは、純粋なTransformerではなく、ハイブリッドなMamba-Attentionアーキテクチャを採用しています。Mamba層は準二次スケーリングで長いシーケンスを処理し、少数のアテンション層が大きなコンテキストでの正確なリコールのために保持されています。

このモデルは20兆テキストトークンで事前学習され、コンテキストは100万トークンに拡張されました。事後学習は、教師ありファインチューニング（SFT）、強化学習（RL）、およびマルチ教師オン・ポリシー蒸留（MOPD）を使用して行われました。NVIDIAチームは、同等のオープンLLMと比較して最大約6倍の推論スループットを同等の精度で達成したと報告しています。

アーキテクチャの詳細：108層、モデル次元8192、64クエリヘッド、わずか2キー・バリューヘッドでKVキャッシュを小さく維持。各MoE層には512のエキスパートがあり、トークンあたり上位22がアクティブになります。3つの設計上の選択が際立っています：LatentMoEは、隠れ次元の幅を犠牲にして、固定推論コストでより多くのルーティングエキスパートを提供します。マルチトークン予測（MTP）は、1回のフォワードパスで複数の将来トークンを予測し、ネイティブな投機的復号を可能にします。NVFP4事前学習は、E2M1 4ビットデータ型と2次元ブロック量子化を重みに使用し、これまでで最大規模の安定した正確なNVFP4トレーニングの実証です。

事前学習は、Warmup-Stable-Decay学習率スケジュールを使用して20兆トークンで行われ、2つのフェーズに分割されました：最初の15兆トークンは多様性に偏り、最後の5兆トークンは高品質データに偏りました。NVIDIAはまた、1730億のリフレッシュされたGitHubコードトークンを含む新しいドメイン固有の事前学習データセットをリリースしました。Nemotron 3 Nanoアブレーションでは、合成法務セットが代理LegalBench平均を64.6から74.7に引き上げ、Wikiベースの事実追求セットが代理SimpleQAを40.2から50.2に引き上げました。

事後学習のリリースも大規模です：NVIDIAは1000万の新しいSFTサンプルと100万の新しいRLタスク、15の新しいRL環境を追加しました。累積Nemotronオープン総数は、5000万SFTサンプル、200万RLタスク、55のRL環境に達します。

トレーニングは完全にスムーズではありませんでした：NVIDIAは2つの損失発散を文書化しています。最初のものは8兆トークン付近で、出力層勾配縮小をFP32からBF16に変更したことに起因し、MTP勾配がBF16の7ビット仮数で実質的に失われました。FP32勾配縮小に戻すことでトレーニングは再安定化しました。2番目の発散は16兆トークン付近で、確認された根本原因はなく、NVIDIAは学習率を早期にアニーリングし、トークン総数を20兆に削減することで緩和しました。

事後学習パイプラインは、SFT、統一RLVR、MOPDウォームアップ、MOPD、およびMTPブースティングを実行し、ループ全体を複数サイクル繰り返すことができます。RLVRは検証可能な報酬による強化学習を意味し、ターミナル使用、ソフトウェアエンジニアリング、検索、数学、コード、安全性など、複数の環境で同時にトレーニングします。MOPDが主要な新しい事後学習手法です：混合環境RLVRは環境数が増えるにつれて学習信号を希釈するため、NVIDIAは10以上のドメイン特化教師モデルをトレーニングしました。MOPD中、学生モデルはドメイン全体で自身のロールアウトを生成し、各ロールアウトは一致する教師によって密なトークンレベルのガイダンスでスコアリングされます。

Nemotron 3 Ultraは3つの推論モードをサポートしています：推論オフ、通常、中程度の努力。中程度の努力モードは約2.5倍少ないトークンを使用し、精度は約7％低下します。ベンチマークでは、Nemotron 3 UltraはエージェントタスクでPinchBench 90.0、ProfBench（検索）56.0、SWE-Bench Verified 71.9、Terminal Bench 2.1で56.4（Kimi-K2.6が67.2でリード）を記録しました。推論では、IOI 2025で570.0、AA-Omniscienceで78.7（セット内最高の非幻覚スコア）を記録。長いコンテキストは100万トークンでRULER 94.7を維持。

8K入力/64K出力設定で、NVFP4 on GB200において、Nemotron 3 UltraのスループットはGLM-5.1の5.9倍、Kimi-K2.6の4.8倍、Qwen-3.5の1.6倍でした。NVIDIAはまた、SWE-BenchとTerminal Benchでのターンあたりのトークン数削減により、タスク完了コストが最大30%低減されたと報告しています。

量子化に関して、NVIDIAは単一のNVFP4チェックポイントをリリースしています。BlackwellではネイティブFP4演算で動作し、HopperではW4A16で動作します。最終的なソリューションは5.03ビット/要素で、NVFP4ルーティングエキスパートとFP8共有エキスパートおよびMamba線形層、アテンション層はBF16のままです。

主なポイント：Nemotron 3 Ultraは550BのオープンMoE（55Bアクティブ）で、長時間実行エージェント向けのハイブリッドMamba-Attention設計を使用。NVIDIAは同等のオープンLLMと比較して最大約6倍の推論スループットを報告。100万トークンのコンテキストとセット内最高の非幻覚スコアを組み合わせ。事後学習はMOPDが中心。重み、トレーニングデータ、レシピはOpenMDW-1.1の下でオープンに提供されます。