AI News HubLIVE
站内改写

視覺語言模型的深度預對齊

本文提出深度預對齊(DPA)架構,用小型視覺語言模型替代標準ViT編碼器作為感知器,確保視覺特徵與目標大語言模型的文本空間深度對齊。在4B參數規模下,DPA在8個多模態基準測試中平均領先1.9個百分點,在32B規模下差距擴大至3.0個百分點。此外,DPA減少了32.9%的語言能力遺忘,並不同LLM家族中表現一致。

文章情報

工程師進階

要點

  • DPA通過小型VLM作為感知器替代ViT編碼器,實現視覺與文本空間的深度對齊。
  • 在4B和32B參數規模下,DPA在多模態基準上分別提升1.9和3.0個百分點。
  • DPA減少了32.9%的語言能力遺忘,併兼容Qwen3、LLaMA 3.2等LLM家族。
  • DPA提供無縫升級路徑,只需模塊化替換視覺編碼器,計算開銷小。

為甚麼重要

這條新聞值得關注,因為DPA通過小型VLM作為感知器替代ViT編碼器,實現視覺與文本空間的深度對齊。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

大多數視覺語言模型(VLM)採用輕量級投影儀將ViT編碼器的輸出直接映射到大語言模型(LLM)的輸入空間。然而,最新研究指出,這種架構存在一個根本性的對齊問題:在LLM的初始層中,視覺特徵與文本表徵之間存在較大差距,導致模型需要浪費大量的計算深度在淺層的模態對齊上,而不是用於深層次的理解和推理。為了解決這一瓶頸,來自研究團隊的論文《Deep Pre-Alignment for VLMs》提出了一種名為DPA(深度預對齊)的創新架構。DPA的核心思想是用一個小型的視覺語言模型(VLM)作為感知器(perceiver)來替換標準的ViT編碼器,從而確保視覺特徵從一開始就與目標LLM的文本空間深度對齊。

論文在多個參數規模的模型上進行了全面實驗:在4B參數規模下,DPA在8個多模態基準測試中平均領先基線1.9個百分點;當模型規模擴展到32B時,優勢進一步擴大到3.0個百分點。這些基準涵蓋了圖像描述、視覺問答、圖文推理等多種任務,體現了DPA的廣泛適用性。除了多模態性能的提升,DPA還顯著緩解了語言能力遺忘問題:通過在感知器中承擔對齊任務,LLM的語言能力在3個純文本基準測試中的遺忘率降低了32.9%。這意味着在保持或提升多模態能力的同時,模型的文本生成和理解能力沒有明顯退化。更重要的是,這種改進在Qwen3和LLaMA 3.2等不同LLM家族中均表現出一致性,證明了方法的通用性。

從實際應用角度來看,DPA提供了一條無縫升級路徑:只需將現有的視覺編碼器模塊替換為DPA感知器,即可帶來性能提升,且計算開銷極小。該論文已被ICML 2026接收,相關代碼和模型將在項目網站公佈。這一工作為VLM的架構設計提供了新的思路,有望推動多模態AI系統的進一步發展。