2026-05-15 02:55 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

Granite Embedding Multilingual R2：開源Apache 2.0多語言嵌入模型，32K上下文，子1億引數中檢索質量最佳

IBM釋出Granite Embedding Multilingual R2系列，包含97M和311M引數兩個多語言嵌入模型，均基於ModernBERT架構，支援32K令牌上下文，覆蓋200+語言，並在MTEB多語言檢索基準上取得領先成績。97M模型在子1億引數模型中排名第一，311M模型在5億引數以下模型中排名第二。

來源Hugging Face Blog

文章情報

工程師進階

要點

97M引數模型在MTEB多語言檢索中得分為60.3，子1億引數模型中最佳；311M模型得分為65.2，5億引數以下模型中排名第二。
支援32K令牌上下文，比前代R1提升64倍；覆蓋200+語言，其中52種語言和9種程式語言經過專門檢索訓練。
基於ModernBERT架構，採用旋轉位置編碼和Flash Attention 2.0，支援Matryoshka嵌入維度裁剪。
開源Apache 2.0許可，相容sentence-transformers、LangChain等框架，支援ONNX和OpenVINO推理。

為什麼重要

這條新聞值得關注，因為97M引數模型在MTEB多語言檢索中得分為60.3，子1億引數模型中最佳；311M模型得分為65.2，5億引數以下模型中排名第二。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

本面板由 AI 生成，經人工審核。

IBM近日釋出了Granite Embedding Multilingual R2系列多語言嵌入模型，包含granite-embedding-311m-multilingual-r2（311M引數）和granite-embedding-97m-multilingual-r2（97M引數）兩個版本。這兩個模型均基於ModernBERT架構構建，支援長達32,768個令牌的上下文視窗（相比前代R1的512令牌提升64倍），並採用Apache 2.0開源許可證釋出。

在基準測試方面，97M模型在MTEB多語言檢索基準（涵蓋18種語言）上取得了60.3分的成績，在所有開源子1億引數模型中排名第一，相比前代R1提升了12.2分。311M模型則取得了65.2分，在5億引數以下開源模型中排名第二，相比R1提升了13.0分。在LongEmbed長文件檢索基準上，97M和311M模型分別比R1提升了31.3分和34.0分，這直接得益於32K上下文視窗的擴充套件。

兩個模型均支援200多種語言，其中52種語言（包括中文、日語、阿拉伯語等）和9種程式語言（Python、Go、Java、JavaScript、PHP、Ruby、SQL、C、C++）經過專門的檢索訓練。模型還支援雙語和跨語言程式碼檢索。訓練資料經過IBM嚴格的治理流程，避免使用MS-MARCO等非商業許可資料集，並採用GneissWeb等IBM策劃的資料集，確保企業級部署的合規性。

在技術實現上，R2系列從XLM-RoBERTa轉向ModernBERT，採用交替注意力機制減少長序列計算量，旋轉位置編碼支援原生32K上下文，並整合Flash Attention 2.0加速。311M模型使用262K令牌的Gemma 3分詞器，97M模型則從GPT-OSS分詞器裁剪為緊湊的180K令牌詞彙表，在保持多語言覆蓋的同時減少引數佔用。分詞器效率至關重要——32K上下文視窗看似驚人，但如果分詞器效率低下，可能一半的令牌都用於編碼單個泰語段落。

訓練流程包括知識蒸餾（從Granite 3.3 Instruct和Mistral v0.2 Instruct等多個教師模型學習）、對比微調（使用多語言檢索對和難負樣本）、模型合併以及Matryoshka表示學習（768維嵌入可裁剪至512/384/256/128維而質量損失極小）。97M模型還透過詞彙選擇與知識蒸餾相結合的方式訓練：先裁剪詞彙表，再從Granite 4.1 8B等教師模型蒸餾，最終在保持多語言覆蓋的同時將引數減少約3倍，檢索質量僅略低於311M模型。

在更廣泛的競爭格局中，harrier-oss-v1-270m在MTEB多語言檢索（66.4）和RaR-b（32.9）上領先，但Granite R2模型在LongEmbed上以71.7分排名第一，在程式碼檢索上也表現優異。97M R2模型在平均得分上超越了multilingual-e5-base和gte-multilingual-base（約300M引數模型），儘管體積小3倍。廣泛用作框架預設的paraphrase-multilingual-MiniLM-L12-v2得分為36.6，比97M R2低23.7分，而後者引數更少（97M vs 110M）且輸出維度相同（384）。

這兩個模型可直接作為sentence-transformers、LangChain、LlamaIndex、Haystack和Milvus等框架的即插即用替代品，僅需一行程式碼更改模型名稱。同時提供ONNX和OpenVINO權重以支援CPU最佳化推理。對於當前僅使用英文預設模型的框架，這一行更改即可為所有使用者提供200+語言支援，無需API變更、新依賴或程式碼修改。