2026-06-25 13:00 UTC+9サイト内リライト2 分で読了更新: 2026-06-25 17:05 UTC+9

SurveilNav: ロボットと監視システムによる協調的オブジェクト目標ナビゲーション

工場やオフィスでの監視システムの普及に伴い、ロボットとの統合が協調的なタスク実行の有望な方向性として注目されている。本研究では、屋内協調物体ナビゲーションのための新しいデータセットとフレームワークSurveilNavを提案。アクティブカメラスケジューリング、2D/3Dマッピング、VLMベースの価値推定、協調目標検証を統合し、HM3Dデータセットで最先端の性能を達成した。

ソースarXiv Robotics著者: Ming-Ming Yu, Qunbo Wang, Rongtao Xu, Yanghong Mei, Yirong Yang, Longteng Guo, Wenjun Wu, Jing Liu

工場、オフィス、家庭における監視システムの導入が進む中、これらとロボットを統合することで、協調的かつ効率的なタスク実行が可能になることが期待されている。しかし、既存のアプローチは主に単一ロボットのシナリオに焦点を当てており、大規模環境での多視点協調が課題となっていた。この問題に対処するため、研究チームはHabitat-Sim上に構築された新しい屋内協調物体ナビゲーションデータセットを提案する。このデータセットは74フロアに206台のカメラを備え、エージェントが多視点監視情報を活用する能力を体系的に評価できるように設計されている。データセットは多様な室内レイアウトと照明条件をカバーしており、訓練と評価に豊富なシナリオを提供する。

さらに、単一ロボットの知覚限界を克服するため、SurveilNavという協調ナビゲーションフレームワークが提案された。このフレームワークは、アクティブカメラスケジューリング、2D/3Dマッピング、視覚言語モデル（VLM）に基づく価値推定、協調目標検証を統合する。アクティブカメラスケジューリングモジュールは、ロボットの現在位置とタスク要件に基づいて、最も適切な監視カメラを動的に選択し、補助視点を提供する。2D/3Dマッピングはロボットの局所観測と監視の全体ビューを融合し、統一された環境表現を生成する。VLMベースの価値推定は、大規模事前学習済み視覚言語モデルを利用して異なるナビゲーション行動の価値を評価し、意思決定の精度を向上させる。協調目標検証モジュールは、ロボットとカメラ間の双方向確認により目標位置特定の信頼性を確保する。

ロボットの動的な局所知覚と監視の静的な全体視点を相乗的に活用することで、単一エージェントの限られた知覚範囲と固定カメラの固有の死角の両方を克服し、非効率な探索を解決する。HM3Dデータセットでの実験結果は、SurveilNavが探索効率とナビゲーション成功率の両方で既存手法を大幅に上回り、最先端の性能を達成することを示している。具体的には、ベースライン手法と比較して、ナビゲーション成功率が約15%向上し、探索効率が20%以上改善された。また、本システムは大規模捜索、家庭環境、救助ミッションなどの応用に強い可能性を示している。本研究成果はICRA 2026に採択されており、ロボットナビゲーション分野における革新性と実用性を示している。