2026-04-28 09:00 UTC+9サイト内リライト2 分で読了更新: 2026-06-27 09:25 UTC+9

Together AI が NVIDIA Nemotron 3 Nano Omni を Day 0 で開発者に提供

NVIDIA Nemotron 3 Nano Omni が Together AI プラットフォームで利用可能になりました。動画、画像、音声、テキストを横断して推論する単一のオープンモデルで、大規模なエージェント向けワークロード向けに設計されています。Together AI は研究最適化、マネージドインフラ、セキュアなAPIにより、このモデルを展開する最速のパスを提供します。

ソースTogether AI Blog

記事インテリジェンス

エンジニア上級

要点

Nemotron 3 Nano Omni は Mamba-Transformer MoE アーキテクチャを採用し、トークンあたり約 30 億パラメータのみを活性化するマルチモーダルモデルです。
一緒にAI の FlashAttention-4 などの研究最適化により、効率的な推論と低レイテンシを実現します。
最大 256K トークンのマルチモーダルコンテキストをサポートし、カスタマーサービス、金融分析、コンピュータ使用などのエージェントアプリケーションに適しています。
モデルは完全にオープン（重み、データ、トレーニングレシピ）で、任意の環境で展開可能です。

重要な理由

このニュースが重要なのは、Nemotron 3 Nano Omni は Mamba-Transformer MoE アーキテクチャを採用し、トークンあたり約 30 億パラメータのみを活性化するマルチモーダルモデルですためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

このパネルは AI が生成し、正確性を確認済みです。

Together AI は、NVIDIA Nemotron 3 Nano Omni をプラットフォーム上で提供開始したことを発表しました。このモデルは、動画、画像、音声、テキストを単一の推論ループで処理できるマルチモーダルAIモデルです。従来のマルチモデルパイプラインのように断片化することなく、統一された理解を実現します。Nemotron 3 Nano Omni は、ハイブリッド Mamba-Transformer Mixture-of-Experts（MoE）アーキテクチャを採用しており、合計300億パラメータのうち、トークンあたり約30億パラメータのみを活性化します。また、マルチトークン予測（MTP）をサポートし、単一の前方パスで複数の将来トークンを同時に生成します。Together AI は、FlashAttention-4 などの研究最適化により、NVIDIA Blackwell 上で cuDNN 比最大1.3倍の高速化を実現しています。Together AI は、エージェントワークロード向けに3つの主要な利点を強調しています。第一に、研究最適化によりモデルのアーキテクチャの可能性を最大限に引き出し、高スループットと低コストの推論を実現します。第二に、マネージドインフラがトラフィックの急増や長コンテキストタスクにも安定したパフォーマンスを提供します。第三に、セキュアで開発者フレンドリーなAPIにより、統合が容易でデータ保護も徹底されています。このモデルは、カスタマーサービスエージェント（通話記録、画面記録、ポリシードキュメントの同時理解）、金融アナリストエージェント（決算電話音声、プレゼンテーション動画、証券書類の推論）、コンピュータ使用エージェント（画面記録を通じたUI認識と指示の実行）など、多岐にわたるユースケースに対応します。Nemotron 3 Nano Omni は完全にオープンソースであり、重み、データ、ポストトレーニングレシピが公開されています。開発者はクラウド、オンプレミス、エアギャップ環境など、任意の環境でデータを完全に制御しながら展開できます。Together AI はこのモデルをすぐに利用可能としており、開発者は即座に統合を開始できます。Together AI の Dedicated Inference サービスは、このモデルを実行するための最適なパフォーマンスを提供し、低レイテンシと高スループットを保証します。エージェントアプリケーションを構築したい開発者にとって、Nemotron 3 Nano Omni はマルチモーダル推論の複雑さを簡素化し、重要なマイルストーンとなります。