2026-06-04 09:00 UTC+9サイト内リライト2 分で読了更新: 2026-06-30 22:03 UTC+9

NVIDIA Nemotron 3 Ultra：長期間実行エージェントワークフロー向けの5500億パラメータオープンモデル

NVIDIA Nemotron 3 Ultra は、5500億総パラメータ（550億アクティブ）のオープンモデルで、長期間実行エージェントワークフロー向けに構築され、100万トークンのコンテキストとNVFP4最適化を備え、エージェントベンチマークとコスト効率でリードしています。

ソースOllama Blog

記事インテリジェンス

エンジニア上級

要点

総パラメータ5500億、トークンあたり550億アクティブで、エージェントオーケストレーションとコーディングエージェント向けに最適化。
100万トークンのコンテキストウィンドウにより、コードベース全体とツール履歴を維持。
エージェント生産性、指示追従、長コンテキストタスクでリードし、最大30%のコスト削減。
Ollamaクラウドで利用可能で、Claude CodeやHermes Agentなどの統合をサポート。

重要な理由

このニュースが重要なのは、総パラメータ5500億、トークンあたり550億アクティブで、エージェントオーケストレーションとコーディングエージェント向けに最適化ためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

このパネルは AI が生成し、正確性を確認済みです。

NVIDIAは2026年6月4日、Nemotron 3 Ultraを発表しました。これは5500億総パラメータ（トークンあたり550億アクティブ）のオープンモデルで、現在Ollamaクラウドで利用可能です。このモデルは長期間実行エージェントワークフロー向けに構築され、数百のツール呼び出しにわたって高速で手頃なパフォーマンスを提供するように設計されています。

モデルのハイライト

Nemotron 3 Ultraは、エージェントオーケストレーション、コーディングエージェント、深層リサーチ、複雑なエンタープライズワークフロー向けにチューニングされており、これらは数百のステップにわたって実行されます。100万トークンのコンテキストウィンドウにより、コードベース全体、長いツール履歴、研究トレイルをコンテキスト内に保持し、流れを失うことなく処理できます。

推論効率に関しては、NVIDIAの4ビット浮動小数点形式NVFP4向けに最適化されており、モデルをより少ないメモリに収めて高速実行できます。5500億総パラメータのうち550億のみがアクティブであり、フロンティア推論能力と高スループットを両立しています。

はじめに

ユーザーはOllamaをダウンロードし、好みのツールでNemotron 3 Ultraを実行できます。例えば、Claude Codeを使用する場合：

ollama launch claude --model nemotron-3-ultra:cloud

Hermes Agent：

ollama launch hermes --model nemotron-3-ultra:cloud

OpenClaw：

ollama launch openclaw --model nemotron-3-ultra:cloud

一般チャット：

ollama run nemotron-3-ultra:cloud

詳細な統合については公式ページを参照してください。

ベンチマーク

Nemotron 3 Ultraは、エージェント生産性、指示追従、長コンテキストタスクの精度でリードし、同時にリーディングスループットを提供します。これにより、他のリーディングオープンモデルと比較して最大30%のコスト削減を実現します。図表は、モデルが精度とスループットの両方で最も魅力的な象限に位置し、コスト効率フロンティアでリードしていることを示しています。

参照

NVIDIA Nemotron 3 UltraブログおよびOllamaモデルページで詳細をご確認ください。