2026-06-12站内改写2 分で読了更新: 2026-06-12

NVIDIA Nemotron 3 Ultra が Fireworks でデイゼロサポート付きで公開

NVIDIA が公開した Nemotron 3 Ultra は、長時間実行される自律エージェント向けに最適化されたオープンモデルです。総パラメータ550B、ハイブリッド Transformer-Mamba MoE アーキテクチャを採用し、Fireworks 上でデイゼロサポートを提供。エージェントタスクにおいて、他のオープンモデルと比較して推論速度が5倍、コストが30%削減されます。

ソースFireworks AI Blog

記事インテリジェンス

エンジニア上級

要点

Nemotron 3 Ultra は自律エージェント向けのオープンモデルで、総パラメータ550B、アクティブパラメータ55B。
ハイブリッド Transformer-Mamba MoE アーキテクチャを採用し、最大1Mのコンテキストをサポート。
Fireworks 上でデイゼロサポートを提供し、専用GPU展開が可能。エージェントタスクで推論速度5倍、コスト30%削減。
同一プラットフォームで SFT や DPO によるカスタマイズが可能で、トレーニングから本番環境への移行が容易。

重要な理由

このニュースが重要なのは、Nemotron 3 Ultra は自律エージェント向けのオープンモデルで、総パラメータ550B、アクティブパラメータ55Bためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

NVIDIA は本日、最新のオープンモデル Nemotron 3 Ultra が Fireworks プラットフォーム上でデイゼロサポート付きで利用可能になったことを発表しました。このモデルは、長時間実行される自律エージェント向けに設計されており、コーディングエージェント、深層リサーチ、複雑なエンタープライズワークフローといったユースケースに最適化されています。

Nemotron 3 Ultra は総パラメータ550B（アクティブパラメータ55B）、ハイブリッド Transformer-Mamba MoE アーキテクチャを採用し、最大1Mのコンテキスト長をサポートします。NVIDIA によると、同クラスの他のオープンモデルと比較して、エージェントタスクにおける推論速度が5倍、コストが30%削減されます。これにより、単一の応答コストではなく、タスク完了にかかる総コストと時間が重要な指標となります。

本日より、ユーザーは Fireworks 上で Nemotron 3 Ultra を専用GPUにデプロイでき、低レイテンシと安定したパフォーマンスを実現します。Fireworks は NVIDIA B300 および B200 GPU 上で動作し、独自の FireAttention カスタムカーネルなどの最適化により、モデル品質を維持しながらスループットを最大4倍向上させます。

Fireworks は推論だけでなく、同一プラットフォームでのポストトレーニングもサポートしています。チームは教師あり微調整（SFT）や直接選好最適化（DPO）を LoRA またはフルパラメータトレーニングで適用でき、トレーニングと推論が同じインフラ上で実行されるため、システム間の移行やモデルの再パッケージ化は不要です。Factory AI の CTO 兼共同創業者 Eno Reyes 氏は、「Factory は企業が自律的なソフトウェアファクトリーを構築・運用するのを支援します。Fireworks は Nemotron 3 Ultra のような最先端のオープンモデルへの迅速なアクセスを提供し、最新の AI 機能をエンタープライズソフトウェア開発に迅速に導入できるようにします」と述べています。

デプロイはワンコマンドで完了し、専用GPUによる低レイテンシ、レート制限なし、GPU秒単位の課金により実負荷でコスト効率が高くなっています。NVIDIA と Fireworks の連携により、世界中の開発者がこれらの革新的なモデルを簡単に利用できるようになります。詳細は Fireworks のウェブサイトまたは Discord コミュニティでご確認ください。