AI News HubLIVE
站内改写3 分で読了

NVIDIA Nemotron 3 UltraがAmazon SageMaker JumpStartで利用可能に

NVIDIA Nemotron 3 Ultraは、ハイブリッドTransformer-Mamba MoEアーキテクチャを採用したオープンな大規模言語モデルで、総パラメータ5500億、アクティブパラメータ550億を備え、自律エージェントの最先端推論とオーケストレーションのために設計されています。Amazon SageMaker JumpStartからワンクリックでデプロイ可能で、推論速度5倍、コスト最大30%削減を実現し、100万トークンのコンテキストをサポートします。

ソースAWS Machine Learning Blog著者: Dan Ferguson

本日、NVIDIA Nemotron 3 UltraがAmazon SageMaker JumpStartで初日から利用可能になったことを発表できることを嬉しく思います。

このリリースにより、ワンクリックデプロイ体験でNemotron 3 Ultraモデルをデプロイできるようになりました。Nemotron 3 Ultraは、長期実行される自律エージェントにおける最先端の推論とオーケストレーションのために構築されたオープンモデルであり、エージェントワークロードに対して5倍高速な推論と最大30%のコスト削減を実現します。Nemotron 3 UltraはNVFP4形式に最適化されており、モデルのホスティングがより高速でコスト効率の高いものになります。

NVIDIA Nemotron 3 Ultraの概要

NVIDIA Nemotron 3 Ultraは、総パラメータ5500億、アクティブパラメータ550億のオープンな大規模言語モデルです。ハイブリッドTransformer-Mamba混合専門家(MoE)アーキテクチャに基づいて構築されており、同等の品質のデンスモデルと比較してはるかに低い計算コストで最先端のインテリジェンスを提供するように設計されています。

仕様:

  • アーキテクチャ:ハイブリッドTransformer-Mamba MoE
  • パラメータ:550B total / 55B active
  • コンテキスト長:最大100万トークン
  • 入出力:テキスト入力、テキスト出力
  • 精度:NVFP4
  • 推論速度:長期実行エージェントワークフローで5倍高速
  • コスト:複雑なエージェントタスクで最大30%低減

なぜエージェントAIには専用モデルが必要か

エージェントは単に1回答えるだけではありません。計画を立て、ツールを呼び出し、サブエージェントに作業を委任し、結果を確認し、何百ものターンにわたって継続します。各ステップでトークンと計算が追加されるため、重要な指標は、有用な精度でのタスク完了、完了までの時間、およびタスクあたりのコストです。

Nemotron 3 Ultraはこれを直接的に解決します。そのMoEアーキテクチャは、フォワードパスごとに550億パラメータのうち550億のみをアクティブ化し、100万トークンのコンテキスト長でも高いスループットを維持します。これにより、エージェントは何百ものターンにわたる計画、ツール呼び出し、自己修正ループを維持し、コヒーレンスを維持しコストを管理するのに役立ちます。

エンタープライズユースケース

Nemotron 3 Ultraは、持続的なマルチステップ推論を必要とするワークロードで優れています:

  • エージェントオーケストレーター – 複数のサブエージェントを調整し、長いツール呼び出しチェーン全体で状態を管理
  • コーディングエージェント – 大規模なリポジトリ全体でコードを生成、テスト、デバッグ、反復
  • ディープリサーチ – 複数のソースから情報を統合し、拡張コンテキストにわたってコヒーレントな推論を維持
  • 複雑なエンタープライズワークフロー – 意思決定分岐とエラー回復を備えたマルチステップビジネスプロセスを自動化

SageMaker JumpStartでの開始方法

Amazon SageMaker JumpStartを通じてNemotron 3 Ultraをワンクリックでデプロイでき、インフラストラクチャの管理やサービングフレームワークの構成が不要です。

前提条件:

  • AWSアカウント
  • SageMaker JumpStartに対する適切にスコープされた権限
  • GPUインスタンスの十分なサービス割り当て(例:ml.p5en.48xlarge、ml.p5.48xlarge、ml.g7e.48xlarge)

重要:このモデルをデプロイするとSageMakerエンドポイントが作成され、実行中は料金が発生します。ml.p5en.48xlargeのようなGPUインスタンスは1時間あたり数ドルかかる場合があります。詳細はAmazon SageMaker AIの料金を参照してください。完了したら、継続的な課金を避けるためにエンドポイントを削除してください。

SageMaker Studioを使用したデプロイ:

  1. Amazon SageMaker Studioを開く
  2. 左側のナビゲーションペインでSageMaker JumpStartを選択
  3. Nemotron 3 Ultraを検索
  4. モデルカードを選択
  5. デプロイを選択
  6. インスタンスタイプを選択(サポートされているインスタンスタイプ:ml.p5en.48xlarge、ml.p5.48xlarge、ml.g7e.48xlarge)
  7. デプロイ設定を確認(デフォルトでほとんどのユースケースに十分)
  8. デプロイを選択してエンドポイントを作成
  9. エンドポイントのステータスがInServiceになるのを待ってから推論に進む

SageMaker Python SDKを使用したデプロイ:

import sagemaker
from sagemaker.jumpstart.model import JumpStartModel
model = JumpStartModel(
    model_id="huggingface-reasoning-nvidia-nemotron-3-ultra-550b-a55b-nvfp4",
    role=sagemaker.get_execution_role(),
)
predictor = model.deploy(accept_eula=True)

推論の実行:

payload = {
    "messages": [{
        "role": "user",
        "content": "このタスクをサブタスクに分割し、必要なツールを特定し、順番に実行してください。"
    }],
    "max_tokens": 20480,
    "temperature": 0.6,
    "top_p": 0.95,
}
response = predictor.predict(payload)
print(response["choices"][0]["message"]["content"])

クリーンアップ:不要な料金を避けるために、完了したらSageMakerエンドポイントを削除します:predictor.delete_endpoint()

まとめ

NVIDIA Nemotron 3 Ultraは、エージェントワークロードに対して5倍高速な推論と最大30%のコスト削減を実現し、最先端の推論をAmazon SageMaker JumpStartにもたらします。そのハイブリッドTransformer-Mamba MoEアーキテクチャと100万トークンのコンテキストウィンドウにより、プロダクションエージェントが要求する持続的なマルチステップ推論に特化して設計されています。

エージェントオーケストレーター、コーディングエージェント、ディープリサーチシステム、複雑なエンタープライズ自動化のいずれを構築している場合でも、Nemotron 3 Ultraは本日からSageMaker JumpStartでデプロイ可能です。

今すぐAmazon SageMaker JumpStartでNemotron 3 Ultraを検索して始めましょう。