2026-05-06 19:30 UTC+9サイト内リライト1 分で読了更新: 2026-06-27 09:25 UTC+9

The Sequence 今週のAI 第855回：Nemotron Omniの内部——NVIDIAがエージェント向けに開発した新しいマルチモーダル脳

NVIDIAのNemotron 3 Nano Omniは、ビデオ、オーディオ、画像、テキスト処理を単一の効率的なモデルに統合し、個別モデルのパイプラインによる損失を回避するマルチモーダル推論モデルです。

ソースTheSequence著者: Jesus Rodriguez

NVIDIAが最近発表したNemotron 3 Nano Omniは、エージェントの「目と耳」を単一の効率的な知覚・推論モデルに統合することを目指した注目すべきマルチモーダルモデルです。現在のマルチモーダルエージェントのパイプラインは、ルーブ・ゴールドバーグ・マシンのようなものです。音声は自動音声認識（ASR）モデルへ、スクリーンショットは視覚言語モデル（VLM）へ、PDFは画像に変換されるかOCRでテキスト化され、ビデオはフレームにサンプリングされ、最後に言語モデルがそれらを繋ぎ合わせようとします。モデル間の境界はすべて損失の多い圧縮ステップであり、音声モデルは発言内容を聞き取れても、その発言時の画面内容は分かりません。視覚モデルはグラフを見てもナレーションを聞けません。プランナーは一貫した感覚ストリームではなく、要約の山を受け取ります。Nemotron Omniの興味深い点は、「マルチモーダルをサポートする」ことではなく、多数のモダリティをあたかも一つの動物のように協調させる設計にある。同モデルはビデオ、オーディオ、画像、テキストを入力として受け取り、テキストを出力するため、モデル間の情報損失を回避します。NVIDIAは2026年4月28日に本モデルを発表し、コンピュータ使用、ドキュメントインテリジェンス、長尺音声動画理解などのエージェントワークフロー向けのオープンな全モーダル推論モデルとして位置付けています。