AI News HubLIVE
站内改写2 分で読了

NVIDIA Cosmos 3 公開:物理AIの推論と行動を実現する初のオープンオムニモデル

NVIDIAは、世界生成、物理推論、行動生成を統合した世界基盤モデルCosmos 3を発表しました。Mixture-of-Transformersアーキテクチャに基づき、テキスト、画像、動画、アクションなど複数のモダリティを処理します。8BパラメータのNano版と32BパラメータのSuper版の2種類を提供し、Hugging Face Diffusersと統合されています。物理AI向けの合成データ生成データセットも同時公開されました。

NVIDIAは本日、物理AI向けの世界基盤モデル「Cosmos 3」を公開しました。Cosmos 3は、世界生成、物理推論、行動生成を単一のモデルで実現する初のオープンオムニモデルです。従来のCosmosバージョンでは、異なる機能ごとに個別のモデル(World Generation、Controlled Generation、Scene Understanding、Policy Generation)を使用する必要がありましたが、Cosmos 3ではこれらを単一のアーキテクチャに統合しています。

アーキテクチャはMixture-of-Transformers(MoT)を採用し、入力シーケンスを自己回帰(AR)サブシーケンスと拡散(DM)サブシーケンスに分割。ARは推論と理解を次トークン予測で担当し、DMは生成を反復的デノイジングで行います。両サブシーケンスは各トランスフォーマー層内で別々のパラメータセットを持ちながら、ジョイントアテンションで相互作用します。これにより、モデルはVLM、動画生成器、順方向/逆方向力学モデル、ロボットポリシーとしてシームレスに切り替わることができます。

今回のリリースでは2つのモデルサイズを提供:Cosmos 3 Nano(8Bパラメータ)はワークステーション向けでRTX PRO 6000 GPUで動作可能、Cosmos 3 Super(32Bパラメータ)は大規模合成データ生成と研究向けでNVIDIA HopperおよびBlackwell GPUに対応します。両モデルはHugging Faceで公開され、Diffusersライブラリに統合されています。以下のPythonコードでテキストから画像生成が可能です。

import torch
from diffusers import Cosmos3OmniPipeline

pipe = Cosmos3OmniPipeline.from_pretrained(
    "nvidia/Cosmos3-Nano", torch_dtype=torch.bfloat16, device_map="cuda"
)
prompt = "現代のロボット研究所の中景、白い壁と灰色の床。金属仕上げのロボットアームが清潔な白い作業台に取り付けられ、グリッパーが色とりどりの小さなオブジェクトの列の上に配置されています。ロボットの横にはノートパソコンと整頓された工具が置かれています。背後にある壁の大型モニターにはソフトウェアインターフェースが表示されています。天井の蛍光灯で明るく照らされています。"
result = pipe(prompt=prompt, num_frames=1, height=720, width=1280)
result.video[0].save("cosmos3_t2i.jpg", format="JPEG", quality=85)

NVIDIAはまた、ロボット操作、物理相互作用、空間推論、デジタルヒューマン、自動運転、倉庫安全などに関する合成データ生成(SDG)データセットを公開しました。これらはHugging Faceで入手可能です。Cosmos 3には後訓練スクリプトとエージェントスキルも含まれており、特定のタスクへの微調整や開発環境のセットアップを容易にします。

Cosmos 3の公開は物理AIの分野における重要なマイルストーンであり、ロボット工学、自動運転、スマートスペースなどのアプリケーションに対して、知覚から行動までを統一する基盤を提供します。詳細はNVIDIAのGitHubリポジトリ、テクニカルブログ、NIMマイクロサービスをご参照ください。