AI News HubLIVE
站内改写2 分で読了

NVIDIA、GTC Taipeiで物理AIに大規模投資:新しい世界モデル、運転脳、オープンな人型ロボット

NVIDIAはGTC Taipeiで、ロボット、自動運転車、ビデオシステム向けの一連のモデルを発表しました。中心となるのは、新しい世界モデルCosmos 3、大幅にスケールアップされた運転モデルAlpamayo 2 Super、そして人型ロボットのオープンリファレンスプラットフォームです。

ソースThe Decoder著者: Maximilian Schreiner

NVIDIAはGTC Taipeiカンファレンスにおいて、物理AI分野への大規模な取り組みを発表しました。発表内容は、世界モデル、自動運転、人型ロボットなど多岐にわたり、デジタル世界から物理世界へAIを拡張するNVIDIAの戦略を示しています。

Cosmos 3は、NVIDIAの次世代オープンオムニモデルであり、テキスト、画像、ビデオ、周囲の音声、アクションデータを一つのシステムで処理します。開発者はこれを用いて合成トレーニングデータを生成し、シーンを解釈し、将来の世界状態を予測することができます。NVIDIAは三つのユースケースを挙げています:ビジョン言語モデルとしてのビデオ分析(例:スマートシティでの交通異常検出)、世界モデルとしての稀な状況のフォトリアリスティックビデオ生成、そして世界アクションモデルとしてのロボット学習用数値動作データの生成。アーキテクチャは混合トランスフォーマーアプローチを採用し、一つの推論トランスフォーマーがシーンを分析し、別の生成トランスフォーマーがビデオ、説明、または動作軌跡を生成します。トレーニングデータには数十億のサンプルが含まれ、テキスト、画像、ビデオ、オーディオ、アクションをカバーしています。NVIDIAは三つのバリアントを提供:Cosmos 3 Super(最高品質)、Nano(高速推論)、Edge(組み込みシステム向けリアルタイム、近日公開)。モデルはOpenMDW-1.1ライセンスでHugging FaceとGitHubで公開されています。同時に「Cosmos Coalition」パートナーグループも発表され、Black Forest Labs、Runway、Agile Robotsなどが参加し、NVIDIAのDGX Cloudトレーニングインフラを利用してモデルとデータを提供します。

Alpamayo 2 Superは、NVIDIAのL4自動運転向けオープンモデルシリーズの最新版で、320億パラメータを誇り、以前の100億パラメータ版を置き換えます。このモデルはカメラ画像を入力として、運転判断を導出し、具体的な軌跡を出力します。新しい機能として、「レーンチェンジ」「停止」「譲る」などのメタアクション出力と、「因果連鎖」と呼ばれるテキスト推論チェーンが追加され、安全文書化や規制審査に活用できます。NVIDIAはこの大規模モデルを教師モデルとして位置づけ、メーカーがこれを利用して車載用Drive AGX Thorチップで動作する小型モデルを蒸留することを想定しています。また、クローズドループ強化学習のためのオープンソースフレームワークAlpaGymや、稀な交通シナリオ生成モデルOmniDreamsも発表されました。コードと重みは今夏にGitHubとHugging Faceで公開予定です。WaymoやTeslaのスタックとの直接比較データは提供されていません。

Isaac GR00Tリファレンス人型ロボットは、人型ロボティクスの学術研究向けにNVIDIAが提供するオープンプラットフォームです。このロボットはUnitree H2 Plusシャーシをベースに、Sharpa製の触覚五本指ハンドを搭載し、Jetson AGX Thor T5000(2070 FP4 TFLOPS)で駆動され、合計75自由度を持ちます。ソフトウェア面ではIsaac GR00Tスタックを実行し、テレオペレーション、Isaac Simでのシミュレーション、基盤モデル、ROSミドルウェアをカバーします。NVIDIA自身はロボットを販売せず、Unitreeが2026年末までにハードウェアを提供する計画です。研究パートナーにはAi2、ETHチューリッヒ、スタンフォードロボティクスセンター、UCサンディエゴARCラボが含まれます。このリファレンスデザインにより、NVIDIAはロボティクス研究コミュニティのJetsonチップとIsaacツールへの依存を深めることを目指しています。