2026-05-18 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

視覺語言模型的深度預對齊

本文提出深度預對齊（DPA）架構，用小型視覺語言模型替代標準ViT編碼器作為感知器，確保視覺特徵與目標大語言模型的文本空間深度對齊。在4B引數規模下，DPA在8個多模態基準測試中平均領先1.9個百分點，在32B規模下差距擴大至3.0個百分點。此外，DPA減少了32.9%的語言能力遺忘，並不同LLM家族中表現一致。

來源arXiv Computer Vision作者: Tianyu Yu, Kechen Fang, Zihao Wan, Kaidong Zhang, Yicheng Zhang, Jun Song, Bo Zheng, Yuan Yao

大多數視覺語言模型（VLM）採用輕量級投影儀將ViT編碼器的輸出直接對映到大語言模型（LLM）的輸入空間。然而，最新研究指出，這種架構存在一個根本性的對齊問題：在LLM的初始層中，視覺特徵與文本表徵之間存在較大差距，導致模型需要浪費大量的計算深度在淺層的模態對齊上，而不是用於深層次的理解和推理。為了解決這一瓶頸，來自研究團隊的論文《Deep Pre-Alignment for VLMs》提出了一種名為DPA（深度預對齊）的創新架構。DPA的核心思想是用一個小型的視覺語言模型（VLM）作為感知器（perceiver）來替換標準的ViT編碼器，從而確保視覺特徵從一開始就與目標LLM的文本空間深度對齊。

論文在多個引數規模的模型上進行了全面實驗：在4B引數規模下，DPA在8個多模態基準測試中平均領先基線1.9個百分點；當模型規模擴充套件到32B時，優勢進一步擴大到3.0個百分點。這些基準涵蓋了影像描述、視覺問答、圖文推理等多種任務，體現了DPA的廣泛適用性。除了多模態效能的提升，DPA還顯著緩解了語言能力遺忘問題：透過在感知器中承擔對齊任務，LLM的語言能力在3個純文本基準測試中的遺忘率降低了32.9%。這意味著在保持或提升多模態能力的同時，模型的文本生成和理解能力沒有明顯退化。更重要的是，這種改進在Qwen3和LLaMA 3.2等不同LLM家族中均表現出一致性，證明了方法的通用性。

從實際應用角度來看，DPA提供了一條無縫升級路徑：只需將現有的視覺編碼器模組替換為DPA感知器，即可帶來效能提升，且計算開銷極小。該論文已被ICML 2026接收，相關程式碼和模型將在專案網站公佈。這一工作為VLM的架構設計提供了新的思路，有望推動多模態AI系統的進一步發展。