2026-06-01 14:41 UTC+9サイト内リライト2 分で読了更新: 2026-06-27 09:25 UTC+9

Nvidia Cosmos 3：ロボットがついに主役に

Nvidiaが発表したCosmos 3は、物理世界の動作を理解し、ロボットや自律システムの開発を支援するために設計された基盤モデルです。従来の動画生成モデルとは異なり、物体の挙動や因果関係を学習し、テキスト、画像、動画、音声、アクションを統合的に扱います。ロボットの直接制御や、訓練データ生成のためのデータ工場として利用でき、ロボット訓練のコストを大幅に削減します。

ソースBaseten Blog

Nvidiaは最近、物理世界の動作を理解するための基盤モデル「Cosmos 3」を発表しました。これは、単に美しい動画を生成するモデルではなく、物理法則に従い、物体間の相互作用や因果関係をモデリングすることを目的としています。Cosmos 3は、テキスト、画像、動画、音声、アクションを統一的に扱う「全モーダルモデル」として設計されており、6つの機能モードを備えています：テキストから画像生成、テキストから動画生成、画像から動画生成、前方ダイナミクス（次のシーンの予測）、逆ダイナミクス（観測からのアクション復元）、およびポリシー（エージェントのアクション生成）です。

モデルファミリーには、リアルタイム処理に最適化された「Cosmos 3 Nano」と、最大の推論能力と生成品質を提供する「Cosmos 3 Super」の2つがあります。特にロボット開発者にとって重要なのは、後半の3つのモードです。前方ダイナミクスは現在のシーンから将来を予測し、逆ダイナミクスはビデオからアクションラベルを抽出し、ポリシーは直接アクションシーケンスを生成します。

Cosmos 3のロボットへの応用には2つのアプローチがあります。アプローチAは、ロボットが観測データをCosmosに送信し、モデルがアクションを返す「コックピット」方式です。研究やプロトタイピングには有効ですが、低遅延とオフライン動作が求められる商用ロボットには適していません。アプローチBは「データ工場」方式で、こちらがより重要です。現実世界のビデオを収集し、逆ダイナミクスでアクションラベルを付け、テキストから動画で合成バリエーションを生成し、大規模な訓練データセットを作成します。その後、小型で効率的なポリシーモデルを訓練し、ロボットに実装します。本番環境のロボットはCosmosを呼び出さず、Cosmosが生成したデータから学習したコンパクトなモデルを実行します。これがCosmosの核心的な価値提案です。Cosmosはロボットそのものではなく、ロボットを構築するための工場なのです。

この設計は、ロボット分野における根本的なデータボトルネックを解決します。現在、ロボットのデモデータの収集は、高価な遠隔操作装置とオペレーターに依存しており、1時間あたり50〜200のデモしか得られません。一方、汎用ロボットポリシーには数百万のデモが必要です。Cosmosはこのボトルネックに多角的にアプローチします：逆ダイナミクスでラベルのないビデオをラベル付きデータに変換し、テキストから動画で少数のデモを拡張し、前方ダイナミクスを学習シミュレーターとして使用し、ポリシーモードでゼロショット教示から小型モデルに知識を蒸留します。例えば、ドアを開けるというタスクでは、多種多様なドアに対応するロボットの訓練コストを大幅に削減できます。

ただし、Cosmos 3は純粋なクリエイティブ動画、ゲームエンジンコンテンツ、テキストを含む動画、科学シミュレーションなどには適していません。しかし、物理AIとロボティクスの分野において、それは全く新しい効率的な開発パラダイムを提供します。現在、Cosmos 3 NanoはBaseten上で1枚のH100 GPUで動作し、テキストから動画は約4分、アクションモードは30秒未満で完了します。このツールのリリースは、ロボットの研究室から現実世界への展開を加速することでしょう。