2026-06-15站内改写1 分鐘閱讀更新: 2026-06-15

基於蒸餾視覺-語言可靠性的引導擴散用於空中導航

研究者提出一種可靠性感知的擴散規劃器，通過蒸餾視覺-語言模型生成場景級可靠性熱圖，引導無人機在3D導航中避免不可靠區域（如玻璃、鏡子），將障礙違規率從40.3%降至9.6%，平均可靠性從0.588提升至0.925。

來源arXiv Robotics作者: Ivan Valuev, Iana Zhura, Valerii Serpiva, Didar Seyidov, Dzmitry Tsetserukou

自主無人機導航通常採用感知、建圖和規劃分離的傳統流水線，這種架構會引發誤差傳播、延遲累積，且需要針對不同環境重新調整參數。端到端生成模型通過直接從原始觀測映射到軌跡，避免了這些接口問題，但存在一個關鍵缺陷：在乾淨數據上訓練的模型無法識別不可靠觀測，會將玻璃、鏡子、過曝表面等退化區域視為有效的規劃證據。

為克服這一侷限，本研究提出了一種可靠性感知的擴散規劃器，專門用於3D無人機導航。該規劃器在生成軌跡時，不僅依賴觀測數據，還引入場景級的可靠性熱圖。這種熱圖由輕量網絡通過蒸餾視覺-語言模型（VLM）的開放詞彙推理能力實時生成，滿足規劃預算要求。為在未見過環境中無需重新訓練即可泛化，去噪過程採用可微分的兩階段歐幾里得符號距離函數（ESDF）成本。該成本將深度數據中的物理障礙與高不可靠區域產生的虛擬障礙一視同仁，從而引導軌跡避開危險區域。

在仿真環境和真實四旋翼無人機上的實驗表明，與最先進的擴散基線相比，該規劃器顯著提升了軌跡安全性。障礙違規率從40.3%降至9.6%，穿越區域的平均可靠性從0.588升至0.925。消融研究證實，移除可靠性項會使平均可靠性從0.898跌至0.783，凸顯其關鍵作用。此外，蒸餾框架的運行速度比完整VLM快兩倍，兼顧了實時性與魯棒性。