2023-10-10 08:00 UTC+8站内改写2 分钟阅读更新: 2026-06-27 08:25 UTC+8

多模态与大语言模型（LMM）

本文全面介绍多模态AI系统，特别是大型多模态模型（LMM）。文章从多模态的必要性、数据模态类型、多模态任务入手，详细解析了CLIP和Flamingo两大模型的架构与训练方法，并探讨了LMM的前沿研究方向，包括多模态输出生成、指令跟随、高效适配器等。

来源Chip Huyen

多模态与大型多模态模型（LMM）是当前人工智能领域的重要前沿。长期以来，大多数机器学习模型只处理单一数据模态，如文本、图像或音频。然而，人类智能天然是多模态的——我们能读、能说、能看，还能同时处理听觉和视觉信息。为了让AI更好地适应真实世界，多模态能力不可或缺。

OpenAI在GPT-4V系统卡中指出，将图像等额外模态融入大语言模型（LLM）被视为AI研究的关键前沿之一。这种融合催生了大型多模态模型（LMM）。但并非所有多模态系统都是LMM，例如Midjourney、Stable Diffusion等文生图模型虽然涉及多模态，却缺少语言模型组件。多模态可以指输入和输出属于不同模态、输入为多模态、或输出为多模态。

本文分为三部分：第一部分介绍多模态的背景，包括为何需要多模态、不同数据模态以及多模态任务类型；第二部分以CLIP和Flamingo为例，讲解多模态系统的基本原理；第三部分探讨LMM的活跃研究方向，如生成多模态输出、适配器技术以及指令跟随等。

为什么需要多模态？ 在医疗、机器人、电商、游戏等行业，许多用例离开多模态将无法实现。融合多种模态的数据还能提升模型性能。多模态系统提供更灵活的交互方式，用户可以通过打字、语音或拍照与系统互动。此外，多模态技术有望帮助视障人士浏览互联网和导航现实世界。

数据模态 常见的数据模态包括文本、图像、音频、表格数据等。一种模态可以近似表示为另一种模态，例如音频可转化为频谱图，视频可视为图像序列加音频。目前，机器学习模型大多将视频视为图像序列，忽略了声音的重要性（例如88%的TikTok用户认为声音至关重要）。图像是模型输入中最通用的格式，而文本在模型输出中更加强大。

多模态任务 多模态任务主要分为生成任务和视觉语言理解（VLU）两类。生成任务包括图像生成（如DALL-E、Stable Diffusion）、文本生成（如视觉问答、图像描述）等。VLU任务包括分类和基于文本的图像检索（TBIR）。分类适用于预定义类别集合，而基于文本的图像检索可通过生成图像描述或构建联合嵌入空间来实现。

多模态训练基础 一个多模态系统通常包含：每个模态的编码器、对齐不同模态嵌入的机制，以及（对于生成模型）一个语言模型。理想情况下，这些组件应尽可能预训练且可复用。

CLIP CLIP（2021）的核心贡献在于将图像和文本映射到共享嵌入空间。它利用自然语言监督和对比学习，从4亿对图文数据中训练。CLIP的图像编码器（如ViT-L/14）可用于零样本图像分类，并被Flamingo等模型采用。对比学习目标通过最大化正确配对的相似度、最小化错误配对的相似度，实现了12倍的效率提升。

Flamingo Flamingo（2022）能够生成文本响应，可视为CLIP加语言模型。它使用预训练的视觉编码器（如NFNet-F6）和冻结的Chinchilla语言模型，并引入Perceiver Resampler（将可变视觉特征统一为64个）和GATED XATTN-DENSE层（允许语言模型高效关注视觉令牌）。Flamingo在四个数据集上训练，通过加权损失函数学习。

研究方向 当前LMM的研究热点包括：融入更多数据模态（如3D、音频）、构建指令跟随模型（如LLaVA、InstructBLIP）、开发高效适配器（如BLIP-2、LLaMA-Adapter V2），以及生成多模态输出（如同时生成文本和图像）。此外，更大的评估基准和更高效的训练方法也是重要方向。

结论多模态系统仍处于早期阶段，但多数研究者认为其影响力将超越纯语言模型。需要注意的是，LMM并不使LLM过时；相反，LMM的性能依赖于基础LLM。许多实验室在并行推进LLM和LMM的研究。