2026-07-01 13:00 UTC+9サイト内リライト2 分で読了更新: 2026-07-01 17:16 UTC+9

ViTL: 時間論理ガイドによるゼロショット自然言語ナビゲーションのための視覚言語モデル

ViTLフレームワークは、大規模言語モデルを使って自然言語コマンドを線形時相論理式に変換し、決定性有限オートマトンに変換してマルチチャネル価値マップを調整します。ナビゲーションに方向スコアを導入し、マルチターゲットで時間的制約のあるタスクをゼロショットで完了できるようにします。HM3Dデータセットでの実験で有効性が確認されました。

ソースarXiv Robotics著者: Kaier Liang, Hengde Dai, Cristian-Ioan Vasile

記事インテリジェンス

エンジニア上級

要点

ViTLはLLMとLTLを組み合わせて、複数ターゲットの時間的自然言語コマンドを処理します。
方向スコアにより単一ターゲットナビゲーションの精度と効率が向上します。
実験により、ViTLが既存の手法を超えてゼロショット長期的ナビゲーションを実現することが示されました。

重要な理由

このニュースが重要なのは、ViTLはLLMとLTLを組み合わせて、複数ターゲットの時間的自然言語コマンドを処理しますためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

このパネルは AI が生成し、正確性を確認済みです。

研究者たちは、ロボットが自然言語コマンドのみを使用して、ゼロショットで長期的なマルチタスクナビゲーションを完了できる新しいフレームワーク「ViTL」を提案しました。この研究は、既存の視覚言語モデル（VLM）ベースのナビゲーションシステムが単一ターゲットタスクに限定されているという課題を解決し、「椅子かソファを掃除してからテレビをつけて」といった時間的・論理的制約を含む指示を実行できるようにします。

ViTLの動作は2つのレベルで構成されています。タスクレベルでは、まず大規模言語モデル（LLM）を使用してユーザーの自然言語指示を線形時相論理（LTL）式に変換します。これらの式は次に、決定性有限オートマトン（DFA）に変換され、マルチチャネル価値マップを調整し、新しい物体が検出されたときに動的再計画をトリガーします。このように自然言語を形式論理に変換することで、ロボットは「その後」や「または」などの複雑な時間的関係を理解できるようになります。ナビゲーションレベルでは、方向スコアを導入します。従来の方法が視野全体に対して方向に依存しない価値を生成するのに対し、本手法では観測画像上のフロンティア方向にラベルを付け、VLMから方向ごとのスコアを抽出することで、ロボットの動きをより正確に導きます。この細かい方向情報により、ナビゲーションの意思決定が大幅に改善されます。

実験はHabitat-Matterport 3D（HM3D）データセットで実施されました。結果は、ViTLフレームワークが時間的制約のある自然言語ナビゲーションタスクをゼロショットで完了できることを示し、方向スコアが単一ターゲットナビゲーションの精度と効率を大幅に向上させることを実証しました。ベースラインと比較して、ViTLはタスク完了率とナビゲーション効率の両方で顕著な改善を示しました。この研究は、ゼロショット長期的ロボットナビゲーションに新たな可能性を開くものであり、形式的手法と視覚言語モデルを組み合わせた今後の研究の重要な基盤となります。将来、チームはViTLをより複雑なマルチロボット協調シナリオに拡張し、モデルのロバスト性と汎化能力をさらに向上させる計画です。