2026-05-18 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

视觉语言模型的深度预对齐

本文提出深度预对齐（DPA）架构，用小型视觉语言模型替代标准ViT编码器作为感知器，确保视觉特征与目标大语言模型的文本空间深度对齐。在4B参数规模下，DPA在8个多模态基准测试中平均领先1.9个百分点，在32B规模下差距扩大至3.0个百分点。此外，DPA减少了32.9%的语言能力遗忘，并不同LLM家族中表现一致。

来源arXiv Computer Vision作者: Tianyu Yu, Kechen Fang, Zihao Wan, Kaidong Zhang, Yicheng Zhang, Jun Song, Bo Zheng, Yuan Yao

大多数视觉语言模型（VLM）采用轻量级投影仪将ViT编码器的输出直接映射到大语言模型（LLM）的输入空间。然而，最新研究指出，这种架构存在一个根本性的对齐问题：在LLM的初始层中，视觉特征与文本表征之间存在较大差距，导致模型需要浪费大量的计算深度在浅层的模态对齐上，而不是用于深层次的理解和推理。为了解决这一瓶颈，来自研究团队的论文《Deep Pre-Alignment for VLMs》提出了一种名为DPA（深度预对齐）的创新架构。DPA的核心思想是用一个小型的视觉语言模型（VLM）作为感知器（perceiver）来替换标准的ViT编码器，从而确保视觉特征从一开始就与目标LLM的文本空间深度对齐。

论文在多个参数规模的模型上进行了全面实验：在4B参数规模下，DPA在8个多模态基准测试中平均领先基线1.9个百分点；当模型规模扩展到32B时，优势进一步扩大到3.0个百分点。这些基准涵盖了图像描述、视觉问答、图文推理等多种任务，体现了DPA的广泛适用性。除了多模态性能的提升，DPA还显著缓解了语言能力遗忘问题：通过在感知器中承担对齐任务，LLM的语言能力在3个纯文本基准测试中的遗忘率降低了32.9%。这意味着在保持或提升多模态能力的同时，模型的文本生成和理解能力没有明显退化。更重要的是，这种改进在Qwen3和LLaMA 3.2等不同LLM家族中均表现出一致性，证明了方法的通用性。

从实际应用角度来看，DPA提供了一条无缝升级路径：只需将现有的视觉编码器模块替换为DPA感知器，即可带来性能提升，且计算开销极小。该论文已被ICML 2026接收，相关代码和模型将在项目网站公布。这一工作为VLM的架构设计提供了新的思路，有望推动多模态AI系统的进一步发展。