2026-06-04 00:00 UTC+9サイト内リライト3 分で読了更新: 2026-06-30 22:03 UTC+9

NVIDIAリサーチ、高度なロボットハンドリング、よりスマートな自動運転、エージェントトレーニングの大規模化を実現

CVPRでNVIDIAリサーチは、ロボットのハンドリング、自動運転の推論、仮想エージェントトレーニングの重要な課題に取り組む3つの論文を発表。GraspGen-Xは、あらゆるグリッパーに対応する初のゼロショット把持基盤モデル。LCDriveはコンパクトな潜在表現で車両の推論を高速化。NitroGenはIsaac GR00Tに基づき、仮想環境で何千時間ものエージェントトレーニングを実施。これらの研究は、汎化における大規模トレーニングの重要性を強調している。

ソースNVIDIA Blog著者: Isha Salian

記事インテリジェンス

エンジニア上級

要点

GraspGen-Xは初のゼロショット把持基盤モデルで、20億回のシミュレーション把持で訓練され、任意のグリッパーに対応。
LCDriveはテキストベースの推論を潜在表現に置き換え、組込みハードウェア上で約半分のトークンで同等の軌道品質を実現。
NitroGenはGR00Tに基づき、1000以上のゲームと4万時間のインタラクションで訓練され、低データ環境で性能を最大52%向上。

重要な理由

このニュースが重要なのは、GraspGen-Xは初のゼロショット把持基盤モデルで、20億回のシミュレーション把持で訓練され、任意のグリッパーに対応ためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

このパネルは AI が生成し、正確性を確認済みです。

今年のコンピュータビジョン・パターン認識会議（CVPR）において、NVIDIAリサーチは3つのブレークスルー研究を発表しました。これらはすべて、大規模トレーニングによりシステムが多様なアプリケーションにわたって汎化できるようにするという共通テーマを持っています。これらの研究は、ロボットのハンドリング、自動運転の推論、仮想エージェントトレーニングの課題に取り組み、物理AI研究の最前線を表しています。

初のハンドリング基盤モデル

ほとんどのロボットハンドリングAIシステムは専門特化型です。例えば、2本指グリッパー用に訓練されたポリシーはその2本指での把持しか学習できず、器用な把持用のポリシーも訓練された多指グリッパーでのみ機能します。グリッパーを交換するたびに、通常はトレーニングデータの収集、微調整、検証を繰り返す必要があります。GraspGen-Xはこのボトルネックを解消するための初のハンドリング基盤モデルです。幾何学的形状と接触を理解することで、遭遇するあらゆるロボットグリッパーに対して信頼性の高い把持姿勢提案を生成します。このモデルは、数千の物体形状と合成グリッパー設定にわたって20億回のシミュレーション把持を生成し、実ロボットが遭遇する可能性のあるさまざまな形態をカバーしています。ロボット開発者にとって、この基盤モデルはグリッパーごとのトレーニングサイクルを不要にし、複数の一般的なグリッパーにそのまま適用できます。GraspGen-Xは、新しいCUDAアクセラレーテッドモーション計画ライブラリcuRoboV2と組み合わせて、未知の環境でこれらの把持姿勢を実現できます。

自動運転の高速思考

近年、研究者はAIに推論させること、つまり最終的な答えを出す前に中間的な思考ステップを生成させることで、意思決定の質が確実に向上することを発見しました。しかし自動運転車にとっての課題は、実際の車両に搭載されたハードウェア上でその推論を行うことです。テキストベースの連鎖思考推論は単語を生成し、各単語は生成に時間のかかるトークンです。LCDriveは、単語を圧縮された潜在表現に置き換えることでこの問題に取り組みます。システムは人間が読める推論ステップを生成する代わりに、コンパクトな潜在空間で思考します。この空間はテキストではなく空間情報を捉えます。アーキテクチャは2種類の思考を交互に行います。候補アクションを提案し、次にそのアクションを取った場合の世界の状態を予測します。予測された世界状態を使って次のステップを洗練します。結果として、テキストベースの推論と同等の出力軌道品質を、約半分のトークンで実現します。このモデルはNVIDIA Alpamayo上に構築され、既存の車両データから生成された教師信号でトレーニングされました。

仮想世界でのエージェントトレーニング

NVIDIAのIsaac GR00Tは、ヒューマノイドロボットのためのオープン基盤モデルであり、単純な原則に基づいています。モデルを十分に多様な状況にさらすと、未見の状況にも汎化できるようになる、というものです。NitroGenはその原則を仮想環境に拡張し、GR00Tアーキテクチャを使用して幅広い仮想世界にわたるエージェントの基盤モデルをトレーニングします。ビデオゲームは、構造化された多様な世界と明確な目標、成功条件を提供します。NitroGenはそれらをトレーニングの場として扱い、最終的に新しい実世界やシミュレーション世界の状況を処理するエージェントを育成します。このモデルはGR00Tに基づき、1000以上のゲームと4万時間のインタラクションでトレーニングされ、生成されたエージェントは環境を横断して汎化できます。低データ条件下では、NitroGenから始めることでエージェントに大きなアドバンテージが与えられ、パフォーマンスが従来の最先端手法に比べて最大52%向上します。モデルはオープンソースで、GitHubとHugging Faceで入手可能です。

NVIDIAはまた、CVPRで新しい物理AIエージェントスキルを発表し、研究者や開発者が自動運転車、ロボット、ビジョンAIシステムの開発を加速できるようにしました。