AI News HubLIVE
站内改写

语义感知引导的无人机探索:用于语言条件3D室内建图

提出SAGE系统,结合CLIP实现开放词汇探索,在保持覆盖的同时优先语义前沿。模拟中物体发现优于FALCON,探索速度比FTU快13.7倍,并在真实飞行中验证。

文章情报

工程师进阶

要点

  • SAGE系统基于FALCON探索器,集成CLIP实现语义感知
  • 在Matterport3D模拟中,SAGE在物体发现上优于FALCON和纯语义方法
  • 与FTU相比,SAGE探索速度提升9-25.9倍,平均13.7倍
  • 在真实无人机平台上验证,SAGE在物体发现上优于FALCON

为什么重要

这条新闻值得关注,因为SAGE系统基于FALCON探索器,集成CLIP实现语义感知。

技术影响

可能影响模型选型、推理成本、产品能力和评测基准。

本论文提出了一种名为SAGE(语义感知引导探索)的系统,用于未知三维室内环境中的开放词汇探索。该系统在保持覆盖导向行为的同时,允许语义线索重新优先化前沿选择。SAGE基于FALCON体积探索器,通过四个关键组件整合了对比语言-图像预训练(CLIP):对象中心嵌入存储、将近期观测投影到自由-未知边界的临时缓存、用于高相似度检测的对象前沿,以及统一的语义-几何规划成本。该成本函数限制了语义重新加权的影响,确保在不牺牲总覆盖面积的前提下优先处理前沿。在基于Matterport3D的仿真中,SAGE在地图-查询对上的物体发现方面优于FALCON和仅语义的消融实验。与“未知中寻找物体”(FTU)相比,SAGE在九个共享地图-查询对上的探索速度提高了9.0至25.9倍,平均加速比达到13.7。此外,SAGE实现了比FTU更高的体积吞吐量。最后,我们在两个环境的五次真实飞行中,在配备机载感知和规划以及板外CLIP推理的Modal AI Starling 2四旋翼飞行器上部署了SAGE。比较SAGE和FALCON,我们发现虽然FALCON导致更快的探索和更短的建图轨迹,但SAGE在物体发现方面优于FALCON。该工作已被CVPR 2026第二届3D-LLM/VLA Workshop接收,为非存档研讨会论文。论文包含10页、6张图和4张表格,展示了在机器人学和计算机视觉交叉领域的重要进展。SAGE系统通过引入CLIP的多模态理解能力,显著提升了无人机在未知室内环境中根据语言指令发现物体的效率,为未来自主探索和建图任务提供了新的可能性。