Nemotron 3 Ultra:オープンで効率的なMixture-of-ExpertsハイブリッドMamba-Transformerモデル、エージェント推論向け
Nemotron 3 Ultraは、NVIDIAが開発した総パラメータ5500億、活性パラメータ55億の混合専門家言語モデルで、MambaとTransformerを融合。20兆トークンで事前学習し、100万トークンのコンテキストをサポート。推論スループットは既存のオープンLLMの6倍で精度は同等。エージェントタスクに最適で、完全オープンソース。
NVIDIAは、革新的な大規模言語モデル「Nemotron 3 Ultra」を発表しました。このモデルは、混合専門家(MoE)アーキテクチャを採用し、総パラメータ数5500億、活性パラメータ数55億という巨大さながら、MambaとTransformerのハイブリッド構造により高い効率を実現しています。20兆トークンでの事前学習後、コンテキスト長を100万トークンに拡張し、監督付きファインチューニング(SFT)、強化学習(RL)、マルチ教師オン方策蒸留(MOPD)などの後処理を施しています。
Nemotron 3 Ultraは、LatentMoE、マルチトークン予測(MTP)、NVFP4事前学習、マルチ環境RLVR、推論予算制御など、最先端の技術を多数統合しています。これにより、現在の最良のオープンソース大規模言語モデルと比較して、推論スループットが約6倍向上し、精度は同等を達成しています。100万トークンのコンテキスト長と相まって、長時間実行される自律エージェントタスクに最適です。
ベンチマークでは、Nemotron 3 UltraはLLaMA 3 405BやMixtral 8x22Bなどの競合モデルと同等以上の精度を示し、標準ハードウェアで最大6倍のスループットを実現します。これにより、リアルタイムのインタラクティブエージェントや大規模データ処理、継続的な対話システムへの展開が期待されます。NVIDIAはHuggingFaceでベースモデル、後学習モデル、量子化モデルのチェックポイントに加え、トレーニングデータとレシピを公開し、透明性と再現性を提供しています。このような高性能で効率的なモデルをオープンソース化することで、研究者や開発者が高度なAIエージェントを構築する障壁を低減します。Nemotron 3 Ultraは、オープンソースLLM、特にエージェント向けおよび長コンテキストタスクにおける新たな標準となる可能性を秘めています。