2026-04-28站内改写

NVIDIA Nemotron 3 Nano Omni：文書、音声、動画エージェントのための長コンテキストマルチモーダルインテリジェンス

NVIDIA は Nemotron 3 Nano Omni を発表しました。これはテキスト、画像、動画、音声を処理する新しい全モーダル理解モデルです。ハイブリッド Mamba-Transformer-MoE バックボーンに C-RADIOv4-H ビジョンエンコーダと Parakeet-TDT-0.6B-v2 オーディオエンコーダを組み合わせ、文書理解、ASR、動画理解、効率性の各ベンチマークでトップの精度を達成しました。実世界の文書分析、自動音声認識、長尺動画音声理解、エージェント型コンピュータ使用、汎用マルチモーダル推論向けに設計されています。

記事インテリジェンス

エンジニア上級

要点

Nemotron 3 Nano Omni はテキスト、画像、動画、音声入力をサポートする統一マルチモーダルモデル。
ハイブリッド Mamba-Transformer-MoE アーキテクチャにより効率的な長コンテキスト処理を実現。
文書理解（OCRBenchV2、MMLongBench-Doc）および音声動画理解（WorldSense、DailyOmni）ベンチマークでトップ精度を達成。
強化学習と合成データを訓練に活用し、複数精度のチェックポイントをオープンソース公開。

重要な理由

このニュースが重要なのは、Nemotron 3 Nano Omni はテキスト、画像、動画、音声入力をサポートする統一マルチモーダルモデルためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

NVIDIA は、Nemotron 3 Nano Omni を正式にリリースしました。これは、テキスト、画像、動画、音声を同時に処理できる全モーダル（omni-modal）理解モデルです。本モデルは、Nemotron 3 Nano 30B-A3B 言語バックボーンに、C-RADIOv4-H ビジョンエンコーダと Parakeet-TDT-0.6B-v2 オーディオエンコーダを組み合わせ、軽量プロジェクタを介して各モーダルの特徴を統一埋め込み空間にマッピングします。

Nemotron 3 Nano Omni は、多くのベンチマークで優れた結果を示しています。文書理解では、OCRBenchV2-En で 65.8%、MMLongBench-Doc で 57.5% を達成し、前世代モデル Nemotron Nano V2 VL を大幅に上回りました。動画理解では Video-MME で 72.2%、音声動画理解では WorldSense で 55.4%、DailyOmni で 74.1% を記録しました。音声対話では VoiceBench で 89.4%、ASR では HF Open ASR で 5.95 の低ワードエラーレートを達成しています。Qwen3-Omni などの同等モデルと比較しても多くの領域でリードし、効率面でも最大 9 倍のシステムスループットを実現します。

アーキテクチャ面では、Nemotron 3 Nano Omni はハイブリッド Mamba-Transformer-MoE 設計を採用。23 の Mamba 選択的状態空間層、23 の MoE 層（128 エキスパート、top-6 ルーティング）、および 6 つのグループ化クエリアテンション層から構成されます。この組み合わせにより、長いマルチモーダルコンテキストでも強力な推論性能を維持。ビジョン部分は動的解像度をサポートし、画像ごとに 1024 から 13312 のビジュアルパッチを可変で使用可能。動画処理には Conv3D チューブレット埋め込みを使用し、隣接フレームを融合してトークン数を削減。さらに、効率的動画サンプリング（EVS）により冗長トークンを削除し、レイテンシを低減します。音声は 16kHz サンプリングレートでネイティブ処理され、最大 20 分の入力シーケンスをサポートし、LLM の最大コンテキスト長は 5 時間以上に対応します。

訓練は段階的マルチモーダルアライメントとコンテキスト拡張に続き、選好最適化とマルチモーダル強化学習を実施。NVIDIA は訓練コードとデータパイプラインをオープンソース化しており、NeMo Data Designer を使用して生成された約 1140 万の合成 QA ペア（約 45B トークン）を含むデータセットを公開。これにより長文書推論能力が強化され、MMLongBench-Doc で 2.19 倍の精度向上を達成しました。

Nemotron 3 Nano Omni は多様なワークフローに対応します：長文書分析（財務報告書、学術論文など）、動画音声共同理解（ナレーション付きスクリーン録画など）、エージェント型コンピュータ使用（GUI 操作）、文書-チャート-ナレーション混合推論、環境音や音楽の理解。モデルは BF16、FP8、NVFP4 の精度で Hugging Face 上にオープンソース公開されており、技術レポートやトレーニングレシピも提供されています。