2023-10-10 08:00 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

多模態與大語言模型（LMM）

本文全面介紹多模態AI系統，特別是大型多模態模型（LMM）。文章從多模態的必要性、數據模態類型、多模態任務入手，詳細解析了CLIP和Flamingo兩大模型的架構與訓練方法，並探討了LMM的前沿研究方向，包括多模態輸出生成、指令跟隨、高效適配器等。

來源Chip Huyen

多模態與大型多模態模型（LMM）是當前人工智能領域的重要前沿。長期以來，大多數機器學習模型只處理單一數據模態，如文本、圖像或音頻。然而，人類智能天然是多模態的——我們能讀、能説、能看，還能同時處理聽覺和視覺信息。為了讓AI更好地適應真實世界，多模態能力不可或缺。

OpenAI在GPT-4V系統卡中指出，將圖像等額外模態融入大語言模型（LLM）被視為AI研究的關鍵前沿之一。這種融合催生了大型多模態模型（LMM）。但並非所有多模態系統都是LMM，例如Midjourney、Stable Diffusion等文生圖模型雖然涉及多模態，卻缺少語言模型組件。多模態可以指輸入和輸出屬於不同模態、輸入為多模態、或輸出為多模態。

本文分為三部分：第一部分介紹多模態的背景，包括為何需要多模態、不同數據模態以及多模態任務類型；第二部分以CLIP和Flamingo為例，講解多模態系統的基本原理；第三部分探討LMM的活躍研究方向，如生成多模態輸出、適配器技術以及指令跟隨等。

為什麼需要多模態？ 在醫療、機器人、電商、遊戲等行業，許多用例離開多模態將無法實現。融合多種模態的數據還能提升模型性能。多模態系統提供更靈活的交互方式，用户可以通過打字、語音或拍照與系統互動。此外，多模態技術有望幫助視障人士瀏覽互聯網和導航現實世界。

數據模態 常見的數據模態包括文本、圖像、音頻、表格數據等。一種模態可以近似表示為另一種模態，例如音頻可轉化為頻譜圖，視頻可視為圖像序列加音頻。目前，機器學習模型大多將視頻視為圖像序列，忽略了聲音的重要性（例如88%的TikTok用户認為聲音至關重要）。圖像是模型輸入中最通用的格式，而文本在模型輸出中更加強大。

多模態任務 多模態任務主要分為生成任務和視覺語言理解（VLU）兩類。生成任務包括圖像生成（如DALL-E、Stable Diffusion）、文本生成（如視覺問答、圖像描述）等。VLU任務包括分類和基於文本的圖像檢索（TBIR）。分類適用於預定義類別集合，而基於文本的圖像檢索可通過生成圖像描述或構建聯合嵌入空間來實現。

多模態訓練基礎 一個多模態系統通常包含：每個模態的編碼器、對齊不同模態嵌入的機制，以及（對於生成模型）一個語言模型。理想情況下，這些組件應儘可能預訓練且可複用。

CLIP CLIP（2021）的核心貢獻在於將圖像和文本映射到共享嵌入空間。它利用自然語言監督和對比學習，從4億對圖文數據中訓練。CLIP的圖像編碼器（如ViT-L/14）可用於零樣本圖像分類，並被Flamingo等模型採用。對比學習目標通過最大化正確配對的相似度、最小化錯誤配對的相似度，實現了12倍的效率提升。

Flamingo Flamingo（2022）能夠生成文本響應，可視為CLIP加語言模型。它使用預訓練的視覺編碼器（如NFNet-F6）和凍結的Chinchilla語言模型，並引入Perceiver Resampler（將可變視覺特徵統一為64個）和GATED XATTN-DENSE層（允許語言模型高效關注視覺令牌）。Flamingo在四個數據集上訓練，通過加權損失函數學習。

研究方向 當前LMM的研究熱點包括：融入更多數據模態（如3D、音頻）、構建指令跟隨模型（如LLaVA、InstructBLIP）、開發高效適配器（如BLIP-2、LLaMA-Adapter V2），以及生成多模態輸出（如同時生成文本和圖像）。此外，更大的評估基準和更高效的訓練方法也是重要方向。

結論多模態系統仍處於早期階段，但多數研究者認為其影響力將超越純語言模型。需要注意的是，LMM並不使LLM過時；相反，LMM的性能依賴於基礎LLM。許多實驗室在並行推進LLM和LMM的研究。