AI News HubLIVE
站内改写

NVIDIA Nemotron 3 Nano Omni:文書、音声、動画エージェントのための長コンテキストマルチモーダルインテリジェンス

NVIDIA は Nemotron 3 Nano Omni を発表しました。これはテキスト、画像、動画、音声を処理する新しい全モーダル理解モデルです。ハイブリッド Mamba-Transformer-MoE バックボーンに C-RADIOv4-H ビジョンエンコーダと Parakeet-TDT-0.6B-v2 オーディオエンコーダを組み合わせ、文書理解、ASR、動画理解、効率性の各ベンチマークでトップの精度を達成しました。実世界の文書分析、自動音声認識、長尺動画音声理解、エージェント型コンピュータ使用、汎用マルチモーダル推論向けに設計されています。

記事インテリジェンス

エンジニア上級

要点

  • Nemotron 3 Nano Omni はテキスト、画像、動画、音声入力をサポートする統一マルチモーダルモデル。
  • ハイブリッド Mamba-Transformer-MoE アーキテクチャにより効率的な長コンテキスト処理を実現。
  • 文書理解(OCRBenchV2、MMLongBench-Doc)および音声動画理解(WorldSense、DailyOmni)ベンチマークでトップ精度を達成。
  • 強化学習と合成データを訓練に活用し、複数精度のチェックポイントをオープンソース公開。

重要な理由

このニュースが重要なのは、Nemotron 3 Nano Omni はテキスト、画像、動画、音声入力をサポートする統一マルチモーダルモデルためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

NVIDIA は、Nemotron 3 Nano Omni を正式にリリースしました。これは、テキスト、画像、動画、音声を同時に処理できる全モーダル(omni-modal)理解モデルです。本モデルは、Nemotron 3 Nano 30B-A3B 言語バックボーンに、C-RADIOv4-H ビジョンエンコーダと Parakeet-TDT-0.6B-v2 オーディオエンコーダを組み合わせ、軽量プロジェクタを介して各モーダルの特徴を統一埋め込み空間にマッピングします。

Nemotron 3 Nano Omni は、多くのベンチマークで優れた結果を示しています。文書理解では、OCRBenchV2-En で 65.8%、MMLongBench-Doc で 57.5% を達成し、前世代モデル Nemotron Nano V2 VL を大幅に上回りました。動画理解では Video-MME で 72.2%、音声動画理解では WorldSense で 55.4%、DailyOmni で 74.1% を記録しました。音声対話では VoiceBench で 89.4%、ASR では HF Open ASR で 5.95 の低ワードエラーレートを達成しています。Qwen3-Omni などの同等モデルと比較しても多くの領域でリードし、効率面でも最大 9 倍のシステムスループットを実現します。

アーキテクチャ面では、Nemotron 3 Nano Omni はハイブリッド Mamba-Transformer-MoE 設計を採用。23 の Mamba 選択的状態空間層、23 の MoE 層(128 エキスパート、top-6 ルーティング)、および 6 つのグループ化クエリアテンション層から構成されます。この組み合わせにより、長いマルチモーダルコンテキストでも強力な推論性能を維持。ビジョン部分は動的解像度をサポートし、画像ごとに 1024 から 13312 のビジュアルパッチを可変で使用可能。動画処理には Conv3D チューブレット埋め込みを使用し、隣接フレームを融合してトークン数を削減。さらに、効率的動画サンプリング(EVS)により冗長トークンを削除し、レイテンシを低減します。音声は 16kHz サンプリングレートでネイティブ処理され、最大 20 分の入力シーケンスをサポートし、LLM の最大コンテキスト長は 5 時間以上に対応します。

訓練は段階的マルチモーダルアライメントとコンテキスト拡張に続き、選好最適化とマルチモーダル強化学習を実施。NVIDIA は訓練コードとデータパイプラインをオープンソース化しており、NeMo Data Designer を使用して生成された約 1140 万の合成 QA ペア(約 45B トークン)を含むデータセットを公開。これにより長文書推論能力が強化され、MMLongBench-Doc で 2.19 倍の精度向上を達成しました。

Nemotron 3 Nano Omni は多様なワークフローに対応します:長文書分析(財務報告書、学術論文など)、動画音声共同理解(ナレーション付きスクリーン録画など)、エージェント型コンピュータ使用(GUI 操作)、文書-チャート-ナレーション混合推論、環境音や音楽の理解。モデルは BF16、FP8、NVFP4 の精度で Hugging Face 上にオープンソース公開されており、技術レポートやトレーニングレシピも提供されています。