2023-10-10 09:00 UTC+9サイト内リライト3 分で読了更新: 2026-06-27 09:25 UTC+9

マルチモーダル性と大規模マルチモーダルモデル（LMM）

本記事では、マルチモーダルAIシステム、特に大規模マルチモーダルモデル（LMM）について包括的に解説します。マルチモーダルの必要性、データモダリティ、マルチモーダルタスクの種類から、CLIPやFlamingoのアーキテクチャと訓練手法、そしてマルチモーダル出力生成、命令追従、効率的なアダプターといった最新の研究動向までをカバーします。

ソースChip Huyen

記事インテリジェンス

エンジニア上級

要点

マルチモーダルシステムはテキスト、画像、音声などのモダリティを統合し、実世界でのAI性能を向上させる。
CLIPは対照学習を用いて共有埋め込み空間を構築し、ゼロショット画像分類を実現。
FlamingoはCLIPに言語モデルを追加し、視覚入力に基づくテキスト生成を可能にする。
現在の研究はマルチモーダル出力生成、命令チューニング、効率的な訓練手法に焦点を当てている。

重要な理由

このニュースが重要なのは、マルチモーダルシステムはテキスト、画像、音声などのモダリティを統合し、実世界でのAI性能を向上させるためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

このパネルは AI が生成し、正確性を確認済みです。

マルチモーダル性と大規模マルチモーダルモデル（LMM）は、人工知能分野における重要なフロンティアです。長い間、機械学習モデルはテキスト、画像、音声といった単一のデータモダリティのみを扱ってきました。しかし、人間の知能は本質的にマルチモーダルであり、私たちは読み、話し、見ることができます。AIが現実世界で機能するためには、マルチモーダルデータを扱う能力が不可欠です。

OpenAIはGPT-4Vシステムカードで、「LLMに画像などの追加モダリティを組み込むことは、AI研究開発の重要なフロンティアと見なされている」と述べています。この融合により、大規模マルチモーダルモデル（LMM）が生まれました。ただし、すべてのマルチモーダルシステムがLMMであるとは限りません。例えば、MidjourneyやStable Diffusionといったテキスト-to-画像モデルはマルチモーダルですが、言語モデルコンポーネントを持ちません。マルチモーダルは、入力と出力が異なるモダリティであること、入力がマルチモーダルであること、または出力がマルチモーダルであることを意味します。

この記事は3部構成です。第1部では、なぜマルチモーダルが必要か、データモダリティの種類、マルチモーダルタスクについて説明します。第2部では、CLIPとFlamingoを例にマルチモーダルシステムの基礎を解説します。第3部では、マルチモーダル出力生成、命令追従、効率的なアダプターなど、LMMの活発な研究領域を探ります。

なぜマルチモーダルか 医療、ロボティクス、eコマース、ゲームなど、さまざまな業界でマルチモーダルなしでは実現できないユースケースがあります。異なるモダリティのデータを組み込むことで、モデルのパフォーマンスが向上します。マルチモーダルシステムは、入力方法の柔軟性を提供し、視覚障害者がインターネットを閲覧したり現実世界を移動したりするのを支援することもできます。

データモダリティ テキスト、画像、音声、表形式データなどが代表的なモダリティです。あるモダリティは別のモダリティで表現可能です。例えば、音声はスペクトログラム（画像）、動画は画像シーケンスとして扱われます。現在、MLモデルは動画を画像シーケンスとして扱うことが多く、音声の重要性を軽視しています（TikTokユーザーの88%が音声は不可欠と回答）。画像はモデル入力として最も汎用的であり、テキストは出力として強力です。

マルチモーダルタスク 生成タスク（画像生成、テキスト生成）と視覚言語理解（分類、テキストベース画像検索）に大別されます。分類は固定クラスセットに限定されますが、画像検索はキャプション生成または共同埋め込み空間の学習によって実現できます。

マルチモーダル訓練の基礎 マルチモーダルシステムは、各モダリティのエンコーダー、埋め込みを整列させる機構、および生成モデルの場合は言語モデルで構成されます。これらのコンポーネントは可能な限り事前学習され、再利用可能であることが理想的です。

CLIP CLIP（2021）は、画像とテキストを共有埋め込み空間にマッピングすることを可能にしました。自然言語による教師信号と対照学習を活用し、4億組の画像テキストペアで訓練されました。CLIPの画像エンコーダー（例：ViT-L/14）はゼロショット画像分類で競争力があり、Flamingoなどのモデルで利用されています。対照学習目標は、正しいペアの類似度を最大化し、誤ったペアの類似度を最小化することで、言語モデル目標と比較して12倍の効率向上をもたらしました。

Flamingo Flamingo（2022）は、CLIPに言語モデルを追加し、視覚入力に基づいてテキストを生成できます。事前学習された視覚エンコーダー（NFNet-F6）と凍結されたChinchilla言語モデルを使用し、Perceiver Resampler（可変視覚特徴を64個に統一）とGATED XATTN-DENSE層（視覚トークンへの注意を効率化）を導入しました。Flamingoは4つのデータセットで重み付き損失関数を用いて訓練されました。

研究の方向性 現在のLMM研究は、より多くのデータモダリティ（3D、音声など）の統合、命令追従モデル（LLaVA、InstructBLIPなど）、効率的なアダプター（BLIP-2、LLaMA-Adapter V2など）、およびマルチモーダル出力の生成に焦点を当てています。また、より大規模な評価ベンチマークや効率的な訓練手法も重要な課題です。

結論マルチモーダルシステムはまだ初期段階ですが、多くの研究者はその影響が純粋な言語モデルを超えると確信しています。ただし、LMMはLLMを時代遅れにするわけではなく、むしろLMMの性能は基礎となるLLMに依存します。多くの研究所はLLMとLMMの研究を並行して進めています。