2026-05-29 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

GAP3D：通过扩散对齐将VLM潜在表示映射到补丁级嵌入，实现模块化3D生成

GAP3D提出了一种模块化的扩散方法，直接将VLM生成的潜在表示对齐到预训练图像编码器的完整补丁级特征空间，从而在保持空间结构化条件信号的同时，使冻结的下游生成模型能够利用VLM作为提示编码器。该方法主要基于通用域图像-文本对训练，避免了对大规模3D数据的依赖，并展现出对多模态提示的零样本能力，尽管目前优先关注高层语义信息。

来源arXiv Computer Vision作者: Polytimi Anna Gkotsi, Andrii Zadaianchuk, Mohammad Mahdi Derakhshani

近年来，将视觉语言模型（VLM）集成到生成模型中作为条件编码器的方法日益增多，但这些方法通常面临两个主要问题：一是依赖昂贵的端到端训练，二是将特征映射到压缩表示，从而丢失了3D资产生成等几何感知任务所需的密集空间结构。为了突破这一瓶颈，研究人员提出了GAP3D，这是一种模块化的、基于扩散的对齐方法。其核心思想是将VLM生成的潜在表示直接对齐到预训练图像编码器的完整补丁级特征空间。通过这种方式，下游的生成模型可以保持冻结状态，同时利用VLM作为提示编码器，并且条件信号仍然保留空间结构。

GAP3D的创新之处在于其扩散对齐机制。与以往将VLM特征压缩为全局向量的方法不同，GAP3D保留了补丁级的空间信息。具体来说，它通过一个扩散过程，逐步将VLM潜在表示映射到图像编码器的特征空间，从而生成与空间结构对齐的嵌入。这种设计使得模型主要依靠通用领域的图像-文本对进行训练，而无需依赖大规模3D数据集。这一特性显著降低了训练成本，并提高了模型的通用性。

在3D资产生成任务上的评估表明，GAP3D不仅在标准文本条件下表现出色，还展现出了令人惊讶的零样本多模态能力。尽管模型仅在文本输入上进行训练，但它能够处理包含图像和文本的多模态提示。这为实际应用中的灵活性奠定了基础，因为用户可以使用更丰富的条件来指导生成过程。

然而，GAP3D目前的一个限制是它优先关注高层语义信息，在捕捉细粒度细节方面仍有不足。尽管如此，该研究证明了VLM与图像编码器特征空间之间的表示差距可以通过扩散对齐部分弥补。这为通过生成性对齐到密集嵌入空间来实现基础模型的模块化集成迈出了重要的第一步。未来的工作可能会进一步优化对齐精度，以同时保留语义和细节信息，从而推动3D生成技术的发展。