2026-05-15 12:45 UTC+9サイト内リライト2 分で読了更新: 2026-06-27 09:25 UTC+9

NVIDIA Nemotron 3 Nano Omni：Baseten上でマルチモーダルエージェントを構築する

NVIDIA Nemotron 3 Nano Omni は、オーディオ、画像、ビデオ、テキストを単一のコンテキストに統合するオープンなマルチモーダル基盤モデルです。Nemotron 3 Nano バックボーンを基盤に、エージェントワークフロー内のサブエージェントを高い効率と精度で駆動します。Basetenはこのモデルを初日からサポートし、高性能推論、マルチクラウドキャパシティ管理、エンタープライズセキュリティを提供します。

ソースBaseten Blog

記事インテリジェンス

エンジニア上級

要点

Nemotron 3 Nano Omni はオープンな統一マルチモーダルモデルで、音声、画像、動画、テキストを統合。
潜在MoE、3D畳み込み層、効率的なビデオサンプリングにより効率性を向上。
コンピュータ使用、文書インテリジェンス、音声・動画推論に最適。
BasetenはGPT-OSS APIとNVIDIA Blackwellアーキテクチャを用いて即時サポートを提供。

重要な理由

このニュースが重要なのは、Nemotron 3 Nano Omni はオープンな統一マルチモーダルモデルで、音声、画像、動画、テキストを統合ためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

このパネルは AI が生成し、正確性を確認済みです。

NVIDIA は、オーディオ、画像、ビデオ、テキストを単一の推論コンテキストに統合するオープンなマルチモーダル基盤モデル「Nemotron 3 Nano Omni」を発表しました。本モデルは Nemotron 3 Nano バックボーンを基盤としており、エンタープライズエージェントシステム向けに高効率かつ高精度なサブエージェント機能を提供します。

現在の多くのエージェントシステムは、音声、視覚、言語にそれぞれ別のモデルを使用していますが、これにより推論パスが増加してレイテンシが生じ、オーケストレーションやエラーハンドリングが複雑化し、モダリティ間でコンテキストが断片化して精度が低下する問題があります。Nemotron 3 Nano Omni は、単一のマルチモーダル推論モデルを採用することで、これらの問題を解決します。本モデルは音声エンコーダと視覚エンコーダを統合したアーキテクチャを採用し、独立した知覚モデルを不要にすることで、エージェントのタスク遂行を高速化し、開発を簡素化します。

アーキテクチャ上の重要な革新として、潜在混合エキスパート（latent MoE）設計によるメモリと計算効率の向上、3D畳み込み層による空間特徴と時間特徴の同時抽出、動的なビデオサンプリングによる長編動画の効率的な処理の3点が挙げられます。これにより、モデルは精度を維持しながら計算コストを大幅に削減します。

Nemotron 3 Nano Omni の30B-A3Bの軽量アーキテクチャは、NVIDIA DGXシステムなどのローカル環境、データセンター、クラウド環境での導入をサポートします。特に、コンピュータ使用、複雑な文書インテリジェンス、音声・動画推論などのユースケースに適しています。カスタマーサービス、研究、モニタリングワークフローでは、単一の推論ループ内で音声、動画、文書にわたる統一されたマルチモーダルコンテキストを維持します。

超高速推論に特化したAIインフラプラットフォームであるBasetenは、Nemotron 3 Nano Omniを初日からサポートします。Basetenのプラットフォームは、NVIDIA DynamoおよびBlackwellアーキテクチャを活用したGPT-OSS APIを含む高性能推論、主要ハイパースケーラおよびネオクラウドプロバイダーにわたるGPUリソースの自動スケーリングを可能にするマルチクラウドキャパシティ管理（MCM）、大規模推論の専門家によるエンジニアリングサポート、SOC 2 Type II、SOC 3、HIPAAに準拠したエンタープライズセキュリティ（セルフホスティング、監査ログ、SSOなどを含む）を提供します。Basetenの推論スタックは、NVFP4、TensorRT-LLM、Dynamo、Baseten Speculation EngineなどのコンポーネントをNVIDIA Blackwell GPU上で実行することにより、これらの成果を実現しています。

「見て、聞いて、推論する」エージェントを構築している開発者にとって、Nemotron 3 Nano Omniは、単一モデルでこれらを実現するプロダクション対応のオープン基盤を提供します。本モデルは、オーディオ、動画、画像、文書などのマルチモーダル入力を処理し、単一パスで統合推論を実行します。Baseten上でNemotron 3 Nano Omniをデプロイしてスケーラブルなマルチモーダル推論を実現するか、Basetenのエンジニアに問い合わせて、セルフホスティングを含むエンタープライズ向けのパフォーマンス、スケール、セキュリティ、柔軟性について詳しく知ることができます。