集団追従ロボットの適応的伴走:動的に変化する集団形成への対応
本論文では、視覚言語モデル(VLM)に基づく適応的な集団伴走手法を提案する。VLMの意味推論能力を活用して伴走位置を推測し、社会的距離を維持し、集団のダイナミクスを理解する。モデル予測経路積分(MPPI)コントローラと組み合わせることで安定性と安全性を確保。実験では成功率が15%向上し、衝突率が25%減少。ユーザー研究では、生成された伴走行動が自然で社会的に適切であると評価された。
最近、arXivに投稿された研究で、視覚言語モデル(VLM)を活用した適応的な集団伴走手法が提案された。この手法は、動的に変化する人間の集団にロボットが自然に追従することを可能にする。研究はCong-Thanh Vu氏とYen-Chen Liu氏によって行われ、IEEE/RSJ国際知能ロボットシステム会議(IROS 2026)に採択されている。
ソーシャルロボットにとって、人間の集団に伴走することは重要な能力であるが、人間の集団は通常固定された隊形をとらないため、ロボットが自然な伴走行動を維持することは困難である。既存の手法は集団の形態のリアルタイムな変化に適応できず、ロボットの行動がぎこちなくなったり、安全性に問題が生じたりする。
この課題に対し、研究チームはVLMベースのフレームワークを提案した。まず、システムは集団内の各メンバーを検出し、知覚モジュールが相互作用集団空間の視覚表現を生成する。この視覚表現がVLMに入力され、VLMはその意味推論能力を用いて適切な伴走位置を推測し、社会的距離を維持し、集団のダイナミクスを理解する。その後、モデル予測経路積分(MPPI)コントローラがVLMの出力に基づいてロボットの運動軌道を計画し、安定性と安全性を確保する。
5つのシナリオ(直線歩行、曲がり角、分散と集合など)で実験が行われた結果、提案手法はベースライン手法と比較して、成功率が15%向上し、衝突率が25%減少した。さらに、20名の参加者によるユーザー研究では、ロボットの伴走行動が自然で社会的に適切であると評価された。
この研究の意義は、集団伴走タスクに初めて視覚言語モデルを導入し、VLMの意味理解能力とMPPIコントローラのリアルタイム計画能力を組み合わせた点にある。これにより、動的集団環境におけるソーシャルロボットの自然なインタラクションが実現可能となる。将来的には、案内ロボットや介護ロボット、サービスロボットなどへの応用が期待され、人間とロボットの協調動作の円滑化と安全性向上に貢献するだろう。