2026-06-15站内改写1 分で読了更新: 2026-06-15

蒸留された視覚言語信頼性を用いた誘導拡散モデルによる空中ナビゲーション

研究者らは、視覚言語モデルを蒸留してシーンレベルの信頼性ヒートマップを生成する信頼性認識型拡散プランナーを提案し、ガラスや鏡などの信頼できない領域を回避しながら3D UAVナビゲーションを実現。障害物違反率を40.3%から9.6%に低減し、平均信頼性を0.588から0.925に向上させた。

ソースarXiv Robotics著者: Ivan Valuev, Iana Zhura, Valerii Serpiva, Didar Seyidov, Dzmitry Tsetserukou

自律UAVナビゲーションは従来、認識、マッピング、計画を別々の段階に分けるパイプラインで解決されてきましたが、これにより誤差の伝搬、レイテンシの蓄積、環境固有の再調整が必要になるという問題がありました。エンドツーエンドの生成モデルは、生の観測から直接軌道にマッピングすることでこれらのインターフェースを除去しますが、クリーンデータで訓練されたモデルは信頼できない観測を認識できず、ガラス、鏡、露出過多の表面を計画の有効な証拠として扱うという微妙な欠点があります。

本研究では、3D UAVナビゲーションのための信頼性認識型拡散プランナーを提案します。このプランナーは、観測とともに、視覚言語モデル（VLM）のオープンボキャブラリ推論を蒸留した軽量ネットワークがリアルタイム計画予算内で生成するシーンレベルの信頼性ヒートマップに基づいて軌道生成を行います。未知環境に再訓練なしで一般化するため、深度からの物理的障害物と高信頼性領域からの仮想的障害物を同等に扱う微分可能な2段階ESDFコストでデノイジングプロセスを誘導します。

シミュレーションと実機クアッドコプターでの実験において、本プランナーは最先端の拡散ベースラインと比較して顕著に安全な軌道を生成し、障害物違反率を40.3%から9.6%に低減、経過領域の平均信頼性を0.588から0.925に向上させました。信頼性項のみを除去すると平均信頼性が0.898から0.783に低下し、これが決定的な要素であることが確認されました。また、蒸留によりフレームワークの実行速度は完全なVLMの最大2倍高速化されています。