AI News HubLIVE
站内改写

視覺語言模型的深度預對齊

本文提出深度預對齊(DPA)架構,用小型視覺語言模型替代標準ViT編碼器作為感知器,確保視覺特徵與目標大語言模型的文本空間深度對齊。在4B引數規模下,DPA在8個多模態基準測試中平均領先1.9個百分點,在32B規模下差距擴大至3.0個百分點。此外,DPA減少了32.9%的語言能力遺忘,並不同LLM家族中表現一致。

文章情報

工程師進階

要點

  • DPA透過小型VLM作為感知器替代ViT編碼器,實現視覺與文本空間的深度對齊。
  • 在4B和32B引數規模下,DPA在多模態基準上分別提升1.9和3.0個百分點。
  • DPA減少了32.9%的語言能力遺忘,併相容Qwen3、LLaMA 3.2等LLM家族。
  • DPA提供無縫升級路徑,只需模組化替換視覺編碼器,計算開銷小。

為什麼重要

這條新聞值得關注,因為DPA透過小型VLM作為感知器替代ViT編碼器,實現視覺與文本空間的深度對齊。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

大多數視覺語言模型(VLM)採用輕量級投影儀將ViT編碼器的輸出直接對映到大語言模型(LLM)的輸入空間。然而,最新研究指出,這種架構存在一個根本性的對齊問題:在LLM的初始層中,視覺特徵與文本表徵之間存在較大差距,導致模型需要浪費大量的計算深度在淺層的模態對齊上,而不是用於深層次的理解和推理。為了解決這一瓶頸,來自研究團隊的論文《Deep Pre-Alignment for VLMs》提出了一種名為DPA(深度預對齊)的創新架構。DPA的核心思想是用一個小型的視覺語言模型(VLM)作為感知器(perceiver)來替換標準的ViT編碼器,從而確保視覺特徵從一開始就與目標LLM的文本空間深度對齊。

論文在多個引數規模的模型上進行了全面實驗:在4B引數規模下,DPA在8個多模態基準測試中平均領先基線1.9個百分點;當模型規模擴充套件到32B時,優勢進一步擴大到3.0個百分點。這些基準涵蓋了影像描述、視覺問答、圖文推理等多種任務,體現了DPA的廣泛適用性。除了多模態效能的提升,DPA還顯著緩解了語言能力遺忘問題:透過在感知器中承擔對齊任務,LLM的語言能力在3個純文本基準測試中的遺忘率降低了32.9%。這意味著在保持或提升多模態能力的同時,模型的文本生成和理解能力沒有明顯退化。更重要的是,這種改進在Qwen3和LLaMA 3.2等不同LLM家族中均表現出一致性,證明了方法的通用性。

從實際應用角度來看,DPA提供了一條無縫升級路徑:只需將現有的視覺編碼器模組替換為DPA感知器,即可帶來效能提升,且計算開銷極小。該論文已被ICML 2026接收,相關程式碼和模型將在專案網站公佈。這一工作為VLM的架構設計提供了新的思路,有望推動多模態AI系統的進一步發展。