WildDet3D:单张图片实现开放世界3D检测
Ai2发布WildDet3D,这是一种从单张RGB图像进行开放词汇3D目标检测的模型,支持文本、点和框提示,可跨摄像头和物体类别泛化,并能在可利用时融合深度信号。同时发布WildDet3D-Data数据集,包含超过100万张图像和370万个3D标注,覆盖13K个类别。该模型在Omni3D基准上达到34.2 AP(文本提示),并在多个零样本数据集上表现优异。
大多数视觉系统能够告诉你图像中有什么,但很少能从单张照片告诉你物体在三维空间中的位置、大小和朝向。这是空间智能的核心挑战:不仅要理解物体是什么,还要理解它们如何在物理世界中存在。无论是导航在建筑工地的自动驾驶车辆、分拣包裹的仓库机器人,还是在街道上叠加导航指示的AR应用,都需要精确的3D理解,并且需要能够处理任意物体和任意摄像头。
近年来,在利用自然语言进行2D图像目标检测方面取得了快速进展。但从单张图像恢复3D结构本质上更加困难,尤其是当系统需要超越固定类别列表、处理不同的查询方式,并泛化到不同分辨率、宽高比和光学特性的摄像头时。大多数现有方法仅覆盖狭窄领域(如驾驶或室内场景),支持单一提示类型,或假设特定的硬件配置——而且很少能利用可用的额外深度线索。
今天,Ai2发布了WildDet3D,这是一个用于单目3D检测的开放模型。给定一张RGB图像,它能预测3D边界框——估计物体的位置、尺寸和朝向(以米制坐标表示)——并接受多种提示类型,包括文本查询、点提示和2D边界框。输入“消防栓”类别,它会找到场景中的每个实例;点击物体,它返回完整的3D边界框;传入其他模型的2D检测结果,它将其提升到3D空间。
WildDet3D无需微调即可处理各种输入,如裁剪的手机照片、广角运动相机画面或机器人摄像头馈送。当有额外的几何信号(如稀疏深度、LiDAR、ToF)可用时,WildDet3D会将其融合以提升预测精度。
与模型一同发布的还有WildDet3D-Data:超过100万张图像,包含370万个经过验证的3D标注,涵盖超过13K个物体类别,其中包含超过10万张人工标注图像,以及评估资料和交互式演示。此外,还发布了一款iOS演示应用,利用实时摄像头输入和LiDAR深度,将3D边界框作为AR叠加实时渲染。
WildDet3D的核心架构由三个组件协同工作。首先,基于SAM3视觉骨干的2D检测器接受所有三种提示类型并识别图像中的物体。其次,独立的几何后端——由一个冻结的DINOv2编码器和一个可训练的深度解码器组成——估计逐像素深度并生成几何感知特征。这两个分支并行运行以提高效率。第三,3D检测头通过交叉注意力融合2D检测结果与深度特征,将2D证据提升为完整的3D边界框预测,包括位置、尺寸和朝向。
一个关键设计是几何后端是模块化的——与检测骨干解耦,因此可以在不重新设计整个系统的情况下更换不同的深度模型。后端还使用了射线感知解码器,通过球谐编码将相机几何直接烘焙到其特征中,无需单独的相机标定分支。当推理时有稀疏或部分深度数据可用时,它们可以无缝地馈入后端,在不改变整体流程的情况下改进定位。
在基准测试方面,WildDet3D在Omni3D(跨六个室内外数据集、50个类别的标准单目3D检测套件)上,使用文本提示达到34.2 AP(平均精度),比此前的最佳结果(3D-MOOD)高出5.8点;使用oracle框提示达到36.4 AP,超越DetAny3D 2.0点。而且仅需12个训练周期,而先前方法需要80-120个周期。当测试时提供稀疏深度,性能进一步提升:文本提示41.6 AP,oracle框提示45.8 AP,特别是在深度传感器常见的室内数据集上提升最大。
为了测试泛化能力,WildDet3D在Argoverse2(自动驾驶,26个类别)和ScanNet(室内,18个类别)上进行了零样本评估。在Argoverse2上达到40.3 ODS(开放检测分数),几乎翻倍了此前的最佳23.8;在ScanNet上达到48.9 ODS,提升17.4点。在从未在Omni3D中出现过的新颖类别上,改进尤为显著:Argoverse2上38.6 ODS(此前14.8),ScanNet上45.8 ODS(此前15.7)。
WildDet3D代表了空间智能领域的重大进步。它在一个模型中融合了多种提示类型,使3D检测更具扩展性和实用性。它证明了开放词汇3D感知可以远远泛化到狭窄的分类体系之外,尤其是在模型从未训练过的类别上。它还展示了单目3D系统在可用时无需忽略更丰富的几何信息——同一架构可以从纯RGB推理,并在存在额外深度线索时获益。所有这些的实现了显著少于先前方法的训练计算量。
此次发布包括WildDet3D模型、WildDet3D-Data数据集、iOS应用、评估支持资料和交互式演示——全部开放获取。空间智能是AI发展的核心。帮助AR应用在街道上叠加导航指示的同一模型,也可以帮助机器人估计货架上包裹的尺寸,或者为智能眼镜上的3D感知应用提供动力——而我们认为最有趣的应用还没有被构建出来。