2026-04-07 16:00 UTC+8站内改写3 分钟阅读更新: 2026-06-27 08:25 UTC+8

WildDet3D：单张图片实现开放世界3D检测

Ai2发布WildDet3D，这是一种从单张RGB图像进行开放词汇3D目标检测的模型，支持文本、点和框提示，可跨摄像头和物体类别泛化，并能在可利用时融合深度信号。同时发布WildDet3D-Data数据集，包含超过100万张图像和370万个3D标注，覆盖13K个类别。该模型在Omni3D基准上达到34.2 AP（文本提示），并在多个零样本数据集上表现优异。

来源Ai2 Blog

大多数视觉系统能够告诉你图像中有什么，但很少能从单张照片告诉你物体在三维空间中的位置、大小和朝向。这是空间智能的核心挑战：不仅要理解物体是什么，还要理解它们如何在物理世界中存在。无论是导航在建筑工地的自动驾驶车辆、分拣包裹的仓库机器人，还是在街道上叠加导航指示的AR应用，都需要精确的3D理解，并且需要能够处理任意物体和任意摄像头。

近年来，在利用自然语言进行2D图像目标检测方面取得了快速进展。但从单张图像恢复3D结构本质上更加困难，尤其是当系统需要超越固定类别列表、处理不同的查询方式，并泛化到不同分辨率、宽高比和光学特性的摄像头时。大多数现有方法仅覆盖狭窄领域（如驾驶或室内场景），支持单一提示类型，或假设特定的硬件配置——而且很少能利用可用的额外深度线索。

今天，Ai2发布了WildDet3D，这是一个用于单目3D检测的开放模型。给定一张RGB图像，它能预测3D边界框——估计物体的位置、尺寸和朝向（以米制坐标表示）——并接受多种提示类型，包括文本查询、点提示和2D边界框。输入“消防栓”类别，它会找到场景中的每个实例；点击物体，它返回完整的3D边界框；传入其他模型的2D检测结果，它将其提升到3D空间。

WildDet3D无需微调即可处理各种输入，如裁剪的手机照片、广角运动相机画面或机器人摄像头馈送。当有额外的几何信号（如稀疏深度、LiDAR、ToF）可用时，WildDet3D会将其融合以提升预测精度。

与模型一同发布的还有WildDet3D-Data：超过100万张图像，包含370万个经过验证的3D标注，涵盖超过13K个物体类别，其中包含超过10万张人工标注图像，以及评估资料和交互式演示。此外，还发布了一款iOS演示应用，利用实时摄像头输入和LiDAR深度，将3D边界框作为AR叠加实时渲染。

WildDet3D的核心架构由三个组件协同工作。首先，基于SAM3视觉骨干的2D检测器接受所有三种提示类型并识别图像中的物体。其次，独立的几何后端——由一个冻结的DINOv2编码器和一个可训练的深度解码器组成——估计逐像素深度并生成几何感知特征。这两个分支并行运行以提高效率。第三，3D检测头通过交叉注意力融合2D检测结果与深度特征，将2D证据提升为完整的3D边界框预测，包括位置、尺寸和朝向。

一个关键设计是几何后端是模块化的——与检测骨干解耦，因此可以在不重新设计整个系统的情况下更换不同的深度模型。后端还使用了射线感知解码器，通过球谐编码将相机几何直接烘焙到其特征中，无需单独的相机标定分支。当推理时有稀疏或部分深度数据可用时，它们可以无缝地馈入后端，在不改变整体流程的情况下改进定位。

在基准测试方面，WildDet3D在Omni3D（跨六个室内外数据集、50个类别的标准单目3D检测套件）上，使用文本提示达到34.2 AP（平均精度），比此前的最佳结果（3D-MOOD）高出5.8点；使用oracle框提示达到36.4 AP，超越DetAny3D 2.0点。而且仅需12个训练周期，而先前方法需要80-120个周期。当测试时提供稀疏深度，性能进一步提升：文本提示41.6 AP，oracle框提示45.8 AP，特别是在深度传感器常见的室内数据集上提升最大。

为了测试泛化能力，WildDet3D在Argoverse2（自动驾驶，26个类别）和ScanNet（室内，18个类别）上进行了零样本评估。在Argoverse2上达到40.3 ODS（开放检测分数），几乎翻倍了此前的最佳23.8；在ScanNet上达到48.9 ODS，提升17.4点。在从未在Omni3D中出现过的新颖类别上，改进尤为显著：Argoverse2上38.6 ODS（此前14.8），ScanNet上45.8 ODS（此前15.7）。

WildDet3D代表了空间智能领域的重大进步。它在一个模型中融合了多种提示类型，使3D检测更具扩展性和实用性。它证明了开放词汇3D感知可以远远泛化到狭窄的分类体系之外，尤其是在模型从未训练过的类别上。它还展示了单目3D系统在可用时无需忽略更丰富的几何信息——同一架构可以从纯RGB推理，并在存在额外深度线索时获益。所有这些的实现了显著少于先前方法的训练计算量。

此次发布包括WildDet3D模型、WildDet3D-Data数据集、iOS应用、评估支持资料和交互式演示——全部开放获取。空间智能是AI发展的核心。帮助AR应用在街道上叠加导航指示的同一模型，也可以帮助机器人估计货架上包裹的尺寸，或者为智能眼镜上的3D感知应用提供动力——而我们认为最有趣的应用还没有被构建出来。