AI News HubLIVE
站内改写

NVIDIA Research、ロボット工学をシミュレーションから現実世界へ前進させる

ICRAで、NVIDIA Researchは28本の論文のうち8本を発表し、シミュレーションから現実への転送が、ロボットが動的で予測不能な環境で知覚、推論、計画、行動することを可能にする方法に焦点を当てました。ScheduleStream、COMPASS、Grasp-MPC、SPARRなどの手法は、マルチアーム協調、ナビゲーション、把持、組立タスクにおいて成功率とロバスト性を大幅に向上させます。

記事インテリジェンス

エンジニア上級

要点

  • NVIDIAはICRAでシミュレーションから現実への転送に関する8本の論文を発表
  • マルチアーム協調、クロスロボットナビゲーション、新物体把持、精密組立、視覚言語行動モデルを含む手法
  • COMPASS、Grasp-MPC、SPARR、SEALなどの技術により成功率が最大4.5倍向上
  • ロボット研究を加速する大規模オープンデータセットを公開

重要な理由

このニュースが重要なのは、NVIDIAはICRAでシミュレーションから現実への転送に関する8本の論文を発表ためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

ロボット工学は新たな段階に入っています。制御されたデモやスクリプト化された自動化から、現実世界で汎用化可能で信頼性の高い具現化自律性へと移行しています。国際ロボット会議(ICRA)において、NVIDIA Researchの28本の採択論文のうち8本は、シミュレーションから現実への転送(sim-to-real)がこのシフトの基盤となり、ロボットが動的で予測不可能な環境で知覚、推論、計画、行動することを支援する方法を示しています。

これらの論文は、ロボット開発者が直面する全スタックの課題をカバーしています。すなわち、複数アームの並列協調、異なるロボットボディに汎化するポリシーの構築、乱雑な中での新規物体の把持、精密な組立の実行、そして動作前に推論する視覚言語行動モデルの開発です。共通するテーマは明確で、sim-to-realは実験室外で適応し、汎化し、より高い信頼性で動作するロボットの基盤となりつつあります。

**アームの協調、ボディのナビゲーション、物体の把持** ロボットアームが試験管を拾い、液体を移し、試薬を混ぜる製薬ラボを想像してください。各ステップの所要時間は異なり、注意深い協調が必要です。従来のロボットスケジューリングソフトウェアはこれらのステップを順次処理し、一度に1つのアームしか扱いません。ScheduleStreamはGPU上で計算を実行することでこれを変え、複数のアームが並行して動作を計画・実行できるようにします。その結果、NVIDIA JetsonエッジAIプラットフォーム上で、マルチアーム計画シナリオにおいて3倍の速度向上を達成しました。フレームワークのコードはGitHubで公開されています。

COMPASSポリシーフレームワークは、まず模倣学習を用いてベースラインのナビゲーション機能を構築し、次にNVIDIA Isaac Labでの残差強化学習を用いて多様なロボット形態に特化したポリシーを構築します。重要なのは、どの段階でも実際のロボットデータを使用せず、すべてIsaac Labシミュレーションで訓練されることです。模倣学習ベースラインと比較して、COMPASSは平均成功率を4.5倍向上させました。また、現実環境へのシームレスな転送も実現し、自律移動ロボットと人型ロボットによる20回の実世界ナビゲーショントライアルで約80%の成功率を示しました。開発者はCOMPASSをNVIDIA Omniverse NuRecと接続し、展開前に新しい環境のデジタルツインでロボットを後訓練・検証できます。

ほとんどの把持システムは物体を識別し、把持を予測し、経路を計画して実行します。しかし、最後の数センチメートルで小さな誤差が大きな問題を引き起こします。Grasp-MPCはロボットの把持動作を適応的に計算し、物体に近づくにつれて連続的に修正します。これは、人が事前に関節角度を計算するのではなく感覚で物をつかむ方法に似ています。研究者らはGraspGenデータセットとcuRoboの動作計画データを使用して、8,000物体にわたる200万のシミュレーション軌道を生成しました。成功と失敗の両方の軌道で訓練された後、Grasp-MPCは乱雑なテーブルや棚にある新規物体を把持することを学習し、実ロボットで約75%の全体的成功率を達成しました(ベースラインは41%)。

**精密な組立** ナットをボルトにねじ込む、ギアをシャフトに取り付ける、ピンを穴に押し込むといった精密な組立は、シミュレーションだけでは正確に行うことが非常に困難です。実世界の表面は完全に滑らかではなく、センサーも仕様通りには動作しません。SPARR法はこの問題を2段階に分割して対処します。Isaac Labで訓練されたポリシーはシミュレーション内で組立タスクの一般的な戦略を学習します。そして、実際のハードウェア上で、第2層がロボット自身のカメラを使用してシミュレータが間違えた部分を修正することを学習します。これにより、人間のデモンストレーションやガイダンスは不要です。SPARRはゼロショットsim-to-realベースラインと比較して成功率を38%向上させ、サイクルタイムを約30%短縮します。訓練中に見られなかったNIST組立タスクでは、成功率が75%近く向上し、人間が介在する手法に迫る結果を示しました。Refineryフレームワークは多段階の順次組立タスクに取り組みます。初期条件による成功率の違いを理解し、数百のシミュレーション組立シナリオで訓練することで、各ステップを完了し、次のステップに適した位置にコンポーネントを残す方法を学習します。シミュレーション成功率は91%で、ベースラインよりも平均で約11%向上し、実世界でも同等の結果を示しています。

**言葉を守る行動モデル** PEEKパイプラインはロボットが乱雑なシーンを無視するのを助けます。典型的な操作タスクでは、ロボットのカメラがシーン全体を捉えますが、そのほとんどは無関係なノイズです。PEEKは視覚言語モデルにタスク命令を読ませ、ロボットの視線を適切に集中させることでこれを解決します。つまり、移動経路を示し、関連する物体を強調表示し、その他をフェードアウトします。ポリシーは生のシーンではなく、この注釈付きビューに基づいて行動します。純粋にシミュレーションで訓練されたポリシーにPEEKを追加すると、実世界での精度が41倍向上しました。大規模VLAモデルや小規模ポリシーでは2~3.5倍の向上が見られます。画像レベルで動作するため、PEEKは変更なしで任意のカメラベースのポリシーと統合できます。

SEALメソッドは、ロボットがより長く複雑なタスクに取り組む際に重要となる特定の障害に対処します。ロボットに「このテーブルのものをすべてキャビネットにしまって」や「マンハッタンを作って」といった指示を与えると、それを個々のステップに分解し順次実行する必要があります。問題は、AIモデルが正しく推論できても、異なる動作を実行してしまうことです。SEALは再訓練なしに実行時にこれを修正します。ロボットは複数の候補動作系列を生成し、それぞれが実際にどこに導くかを考え、指示に一致する結果を選択します。SEALは先行研究より最大15%の精度向上を達成し、指示の言い換え、物体の変更、シーンの乱雑さ、カメラ角度の変更に対して堅牢です。

論文に加えて、NVIDIAは大規模なオープンロボティクスデータセットで研究インフラを拡大しています。NVIDIA Physical AI Datasetは世界最大の物理開発用オープンデータセットとなり、1500万以上のダウンロードを突破しました。また、NVIDIA Isaac GR00T X Embodiment Simは最もダウンロードされたロボティクスデータセットの1つとなっています。