2026-04-01 08:00 UTC+8站內改寫4 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

多模態嵌入與RAG：實用指南

多模態嵌入使AI系統能夠直接搜尋和推理文本、影像、音訊和影片，無需先轉換為文本。本文介紹了其工作原理，並透過Weaviate和Gemini展示了三種實際實現。

當我們試圖用語言描述一段音樂時，常常會陷入“有點像Billie Eilish，但更柔和，有鋼琴線……算了，你直接聽吧”的困境。這並非語言的失敗，而是提醒我們語言本質上是經驗的壓縮表示，如同任何壓縮都會丟失音調、質感、空間佈局等細節。在AI歷史中，我們曾不得不接受這種壓縮：搜尋和檢索幾乎只處理文本，若非寫成文字，便視為不存在。播客需轉錄，掃描PDF需OCR，白板照片則幾乎無法利用。每次轉換都帶來資訊損失。

多模態嵌入改變了這一局面。它能夠將文本、影像、音訊和影片對映到同一嵌入空間，使一種模態的查詢可以檢索所有其他模態的結果。本文介紹其工作原理、最新模型如何使其更實用，並透過三個實際系統展示如何構建多模態應用。

嵌入簡介

嵌入是輸入（文本/影像/音訊等）的高維數學空間表示。像text-embedding-3-large或nomic-embed-text這樣的模型將句子編碼為向量。語義相近的輸入在嵌入空間中相互靠近（如“狗”和“小狗”的向量近，“Jira工單”和“派對策劃”的遠）。這就是現代檢索系統的核心——透過向量比較實現語義搜尋，而非關鍵詞匹配。但文本嵌入僅理解文本，若資料為其他格式，則需先轉換或放棄。

共享嵌入空間

假設支援工程師搜尋包含客戶通話錄音、掃描手冊、產品演示影片的知識庫。他搜尋“壓力下閥門密封失效的部分”，答案在40分鐘教學影片的第22分鐘。純文本嵌入無法處理：轉錄只捕獲對話，OCR丟失圖表，字幕只描述臺詞。資訊存在，但格式使其不可訪問。解決方案是將每種模態編碼到共享嵌入空間。關鍵在於訓練一個能跨模態一致工作的模型。

模態對齊的學習方法

對比學習是實現此目標的技術：構建配對資料（照片與說明、音訊片段與文本描述），同時訓練兩個編碼器。配對輸入在嵌入空間中靠近，非配對遠離。每批次中，正確配對排名最高，錯誤配對受罰。經過數億對訓練，編碼器收斂到語義主導格式的幾何空間。

CLIP（OpenAI，2021）首次大規模驗證了影像-文本對齊（4億對）。ImageBind（Meta，2023）擴充套件到六種模態（影像/影片、文本、音訊、深度、熱成像、IMU），透過影像作為錨點，無需所有模態配對資料。然而，“Mind the Gap”（NeurIPS 2022）指出問題：每個編碼器的表示在高維空間中自然聚集於狹窄的錐體，且兩個錐體不完全重疊。對比訓練無法縮小這一差距，因為它只關心相對距離，導致模態間隙影響準確性和下游任務偏差。

下一代模型需要從根本上解決：從零開始聯合訓練所有模態，採用統一架構。現代原生多模態嵌入模型正是如此，使下文示例從理論變為現實。

塑造多模態檢索的決策

設計決策對實際準確性的影響大於模型選擇：

原生 vs. 橋接嵌入：常見方法是將所有內容轉為文本後使用文本嵌入模型，但這會承受轉換成本。替代方案是使用從開始就聯合訓練的模型（如Gemini Embedding 2）對每種模態進行原生嵌入，保留音訊音調、PDF佈局、影片視覺動作。
非文本資料的分塊策略：文本有自然分塊單元（句子、段落），音訊和影片沒有。標準方法是固定時間視窗加重疊，避免有意義內容被分割。太短丟失上下文，太長檢索塊難以傳遞給生成模型。對於文件，轉換為影像並按頁面索引效果良好，佈局保持不變。
維度大小與儲存：多模態工作負載會快速生成向量。若索引100萬個15秒影片片段（3072維），向量索引可達數GB。使用Matryoshka表示學習（MRL）訓練的模型允許在無需破壞嵌入的情況下降低維度（例如3072維向量的前768維仍是可用表示）。建議從小維度開始，根據資料基準測試，必要時再擴充套件。
檢索-生成，原生媒體：標準RAG迴圈（嵌入語料庫、嵌入查詢、檢索最近鄰、傳遞給LLM）在這裡同樣有效。若生成模型能直接推理音訊、影像或影片，則傳遞原始媒體而非文本摘要，使生成步驟像嵌入步驟一樣受益於原始內容。

構建多模態系統（三個示例）

Weaviate最近增加了對Gemini Embedding 2（Google首個原生多模態嵌入模型）的支援，可直接在資料庫接入管道中處理。只需宣告哪些欄位是文本、影像、音訊或影片，匯入資料後嵌入自動生成和索引。

我們使用的技術棧：Weaviate（帶multi2vec-google模組）、Gemini Embedding 2（支援MRL的多模態嵌入模型）、Gemini 3 Flash（多模態LLM用於生成步驟）。

1. 無需轉錄的音訊搜尋 問題：有長音訊檔案（播客、訪談、講座），希望基於語義而非轉錄進行RAG。方法：將音訊分割為短重疊塊並原生嵌入。可用文本或音訊查詢，檢索匹配的音訊片段。示例中使用Robert Frost的詩《Birches》的錄音。檢索到的音訊位元組直接傳遞給Gemini 3 Flash進行生成。模型基於聽到的內容回答，這與基於文本轉錄的體驗截然不同——詩歌不僅是文字，還包括行間的呼吸、重音和沉默。

2. 將PDF作為複雜視覺文件閱讀 問題：PDF文本提取不僅偶爾出錯，且圖表、註釋、複雜表格和多列格式在純文本中無法清晰表示。方法：將PDF視為視覺頁面序列，每頁轉換為影像後以image_fields配置索引。嵌入模型接收包含佈局、排版、圖表和表格的頁面。文本查詢按視覺相似性檢索最相關頁面，這些頁面作為影像傳遞給LLM，LLM像人類一樣閱讀它們。預處理管道也因此更簡單。

3. 在影片中找到正確時刻 影片是最難搜尋的媒介，因為影片中最易檢索的對話往往不是最重要的視覺資訊。例如，教程影片中配置面板的操作是視覺答案，而旁白可能只含糊帶過。基於字幕的搜尋找到說了正確詞語的影片，而視覺搜尋找到發生了正確動作的片段。方法：將MP4檔案用ffmpeg分割為15秒重疊段，保留每塊的影片和音訊流。將每塊編入索引，查詢按語義內容檢索最近塊。生成模型基於原始影片內容推理給出最佳答案。也可用影片片段查詢實現影片到影片搜尋。

何時使用多模態嵌入（以及何時不用）

多模態嵌入並非萬能升級。關鍵判斷：資料中是否存在文本無法承載的訊號？使用時滿足以下條件：

音訊包含重要的情感或語調內容。
PDF有佈局相關資訊（表格、註釋、圖表）且OCR易出錯。
影片搜尋需要找到視覺動作/線索，而非僅口語。
使用者可能透過示例搜尋：“給我看一些像這樣的東西……”。

若實際資料是純文本，仍應使用文本嵌入，它們在文本檢索任務上效能良好且更便宜、更快。若語料庫是1000萬篇文章，無視覺或音訊成分，新增多模態會增加成本和複雜性而不提高準確性。同時注意儲存成本，建議從較小向量維度（768通常足夠）開始，在擴充套件前進行基準測試。

總結

三個示例共享相同結構：以資料實際到達的形式處理它。無需轉錄步驟丟失音調，無需OCR破壞佈局，無需字幕生成將視覺場景壓扁成單句。這就是“多模態”的實際含義——不僅可跨格式查詢，而且表示本身基於完整訊號，而非僅適合文本形狀的資訊。構建此類系統的工程難度已降至歷史低點。本文附帶的筆記本是真實起點，選擇最接近自己資料的一個（或組合幾個）開始構建吧！