NVIDIA Nemotron 3 Ultra のご紹介:Nemotron 3.x ファミリーが登場!
Nemotron 3 Ultra は、長時間実行されるエージェント向けに設計されたハイブリッドMamba-Transformerモデルです。ほとんどのアテンションをMamba層に置き換えることで、最大5倍の推論速度向上と30%のコスト削減を実現。完全にオープンであり、エージェントが遅くなることなく長いタスクを効率的に完了できます。
NVIDIA は、長時間実行される自律エージェント向けに設計された混合エキスパート(MoE)言語モデル、Nemotron 3 Ultra を発表しました。このモデルは総パラメータ数 5500 億(トークンあたりのアクティブパラメータ数 550 億)を持ち、テキスト入力とテキスト出力を行います。従来の多くのモデルとは異なり、Nemotron 3 Ultra は革新的なハイブリッドアーキテクチャを採用しており、ほとんどの層が Mamba 層(状態空間モデル)で構成され、少数のアテンション層のみが残されています。この設計は、Transformer モデルにおけるアテンション機構の二次的なコンテキスト長依存性を解決し、エージェントが長いタスクを実行しても速度が低下しないようにします。
従来の Transformer モデルでは、コンテキストが蓄積されるにつれて各ステップの計算量が二次的に増加し、数百ステップ後にエージェントが極端に遅くなります。一方、Mamba 層は固定サイズの状態を維持することで、各ステップのコストを一定に保ちます。Nemotron 3 Ultra はこれらを巧みに組み合わせ、Mamba 層がほとんどのコンテキストを高速に処理し、アテンション層が正確な参照を必要とする場合に使用されます。この組み合わせにより、エージェントは第3ステップと第300ステップでほぼ同じ速度で動作します。
NVIDIA の報告によると、同クラスのオープンフロンティアモデルと比較して、Nemotron 3 Ultra は長時間のエージェントワークフローで最大5倍の推論速度向上と30%のコスト削減を達成しています。このモデルは完全にオープンであり、モデルウェイト、トレーニングデータ、レシピが NVIDIA オープンモデルライセンスの下で公開されています。NVIDIA は強化学習を使用して様々なエージェント環境で事後学習を行い、単発のチャットではなくエージェントループ内で適切に動作するように調整しています。
Nemotron 3 Ultra の応用範囲は広く、特に多くのステップを必要とする複雑なタスクに適しています。例えば、コードエージェント、深層研究(数百のソースの検索と統合)、エンタープライズワークフロー(終日実行される永続的なツール呼び出しループ)、チップ設計(EDA における RTL 生成と検証)などが挙げられます。これらのシナリオでは、エージェントは増大するコンテキストを処理する必要があり、Nemotron の線形コスト特性が理想的です。
コアの Nemotron 3 Ultra に加えて、NVIDIA は2つの追加モデルも発表しました。Nemotron 3.5 ASR は40の言語地域をカバーするストリーミング音声認識モデルで、遅延を調整可能(80ms~1.12s)であり、キャッシュ認識アーキテクチャによりチャンク単位の処理を実現します。Nemotron 3.5 Content Safety はテキストと画像向けのマルチモーダル安全モデルで、エンタープライズ AI ガードレールに使用されます。これらのモデルは Baseten 上で即座に利用可能であり、OpenAI 互換のエンドポイントを介してアクセスできます。また、より小規模な Nemotron 3 Super(1200億パラメータ)もすでに提供されており、短いタスクやレイテンシに敏感な単発呼び出しに適しています。