AI News HubLIVE
サイト内リライト2 分で読了

Physical Intelligence におけるロボットのリアルタイム推論

Physical Intelligence は Modal プラットフォームを活用し、QUIC ベースの専用トランスポートプロトコルにより、ロボット向けの低遅延リモートリアルタイム推論を実現。ネットワークオーバーヘッドはわずか 10~15 ミリ秒で、大規模モデルの実験も容易。

ソースModal Blog

Physical Intelligence(Pi)は、あらゆるロボットをあらゆるタスクで操作できる汎用ロボットインテリジェンスシステムを構築しています。中核となるモデルは視覚言語行動(VLA)アーキテクチャで、視覚観測、自然言語指示、ロボットの固有受容状態を入力として、次の瞬間のモーターコマンドを出力します。すべてのアーム動作は、この継続的な推論のループを経由します。

Pi はモデルの評価にシミュレーションだけでなく、実際のロボットによる実タスクでの検証を必須としています。そのため、成長を続けるロボット群で 24 時間 365 日、数千回の推論サイクルが実行されます。当初はクラウドで訓練したモデルをロボット搭載の GPU にダウンロードしてローカル推論を行っていましたが、各ロボットに GPU が必要でした。より軽量な解決策として、Pi は Modal プラットフォームでのリモート推論に移行しました。

Modal は通常、低遅延サービスに Modal Tunnels を提供します。Tunnels は TCP ポートを公開し、HTTPS や raw TCP でアクセス可能にします。しかし、ロボットの制御ループでは、TCP のジッタやヘッドオブラインブロッキングが問題となるため、Pi は Modal と協力して、QUIC ベースの UDP ポータルを構築しました。このシステムは、NAT 越えを自動的に行い、ロボットと Modal の GPU コンテナ間に永続的双方向チャネルを確立します。ロボットは一度接続すれば、同じチャネルで観測データを送信し、アクションコマンドを受信します。NAT 越えには STUN と UDP ホールパンチングを使用し、Modal Dict で調整します。通信は Rust 実装の QUIC で行われ、高いスループットと低遅延を実現します。結果として、クラウドのネットワークオーバーヘッドは約 10~15 ミリ秒に抑えられました。

Modal により、Pi は各デプロイメントに大規模なデータセンター級 GPU を割り当て、GPU 集約型の実験を即座に実行できます。オンボード GPU に収まらない大きなモデルのテストも可能です。モデルチェックポイントは Modal Volumes に格納され、GPU コンテナに直接マウントされるため、ロード時間は 30 秒未満です。さらに、Modal は推論デプロイメントをロボットの近くのリージョンに固定できるため、物理的な距離による遅延を最小限に抑えます。新しい場所にロボットを追加する際も、同じコンテナをそのリージョンで起動し、同じチェックポイントをマウントするだけで、低遅延の通信を確立できます。