2026-06-15站内改写1 分鐘閱讀更新: 2026-06-15

基於蒸餾視覺-語言可靠性的引導擴散用於空中導航

研究者提出一種可靠性感知的擴散規劃器，透過蒸餾視覺-語言模型生成場景級可靠性熱圖，引導無人機在3D導航中避免不可靠區域（如玻璃、鏡子），將障礙違規率從40.3%降至9.6%，平均可靠性從0.588提升至0.925。

來源arXiv Robotics作者: Ivan Valuev, Iana Zhura, Valerii Serpiva, Didar Seyidov, Dzmitry Tsetserukou

自主無人機導航通常採用感知、建圖和規劃分離的傳統流水線，這種架構會引發誤差傳播、延遲累積，且需要針對不同環境重新調整引數。端到端生成模型透過直接從原始觀測對映到軌跡，避免了這些介面問題，但存在一個關鍵缺陷：在乾淨資料上訓練的模型無法識別不可靠觀測，會將玻璃、鏡子、過曝表面等退化區域視為有效的規劃證據。

為克服這一侷限，本研究提出了一種可靠性感知的擴散規劃器，專門用於3D無人機導航。該規劃器在生成軌跡時，不僅依賴觀測資料，還引入場景級的可靠性熱圖。這種熱圖由輕量網路透過蒸餾視覺-語言模型（VLM）的開放詞彙推理能力即時生成，滿足規劃預算要求。為在未見過環境中無需重新訓練即可泛化，去噪過程採用可微分的兩階段歐幾里得符號距離函式（ESDF）成本。該成本將深度資料中的物理障礙與高不可靠區域產生的虛擬障礙一視同仁，從而引導軌跡避開危險區域。

在模擬環境和真實四旋翼無人機上的實驗表明，與最先進的擴散基線相比，該規劃器顯著提升了軌跡安全性。障礙違規率從40.3%降至9.6%，穿越區域的平均可靠性從0.588升至0.925。消融研究證實，移除可靠性項會使平均可靠性從0.898跌至0.783，凸顯其關鍵作用。此外，蒸餾框架的執行速度比完整VLM快兩倍，兼顧了即時性與魯棒性。