2026-06-15站内改写1 分钟阅读更新: 2026-06-15

基于蒸馏视觉-语言可靠性的引导扩散用于空中导航

研究者提出一种可靠性感知的扩散规划器，通过蒸馏视觉-语言模型生成场景级可靠性热图，引导无人机在3D导航中避免不可靠区域（如玻璃、镜子），将障碍违规率从40.3%降至9.6%，平均可靠性从0.588提升至0.925。

来源arXiv Robotics作者: Ivan Valuev, Iana Zhura, Valerii Serpiva, Didar Seyidov, Dzmitry Tsetserukou

自主无人机导航通常采用感知、建图和规划分离的传统流水线，这种架构会引发误差传播、延迟累积，且需要针对不同环境重新调整参数。端到端生成模型通过直接从原始观测映射到轨迹，避免了这些接口问题，但存在一个关键缺陷：在干净数据上训练的模型无法识别不可靠观测，会将玻璃、镜子、过曝表面等退化区域视为有效的规划证据。

为克服这一局限，本研究提出了一种可靠性感知的扩散规划器，专门用于3D无人机导航。该规划器在生成轨迹时，不仅依赖观测数据，还引入场景级的可靠性热图。这种热图由轻量网络通过蒸馏视觉-语言模型（VLM）的开放词汇推理能力实时生成，满足规划预算要求。为在未见过环境中无需重新训练即可泛化，去噪过程采用可微分的两阶段欧几里得符号距离函数（ESDF）成本。该成本将深度数据中的物理障碍与高不可靠区域产生的虚拟障碍一视同仁，从而引导轨迹避开危险区域。

在仿真环境和真实四旋翼无人机上的实验表明，与最先进的扩散基线相比，该规划器显著提升了轨迹安全性。障碍违规率从40.3%降至9.6%，穿越区域的平均可靠性从0.588升至0.925。消融研究证实，移除可靠性项会使平均可靠性从0.898跌至0.783，凸显其关键作用。此外，蒸馏框架的运行速度比完整VLM快两倍，兼顾了实时性与鲁棒性。