2026-05-15 02:55 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

Granite Embedding Multilingual R2：開源Apache 2.0多語言嵌入模型，32K上下文，子1億參數中檢索質量最佳

IBM發佈Granite Embedding Multilingual R2系列，包含97M和311M參數兩個多語言嵌入模型，均基於ModernBERT架構，支持32K令牌上下文，覆蓋200+語言，並在MTEB多語言檢索基準上取得領先成績。97M模型在子1億參數模型中排名第一，311M模型在5億參數以下模型中排名第二。

來源Hugging Face Blog

文章情報

工程師進階

要點

97M參數模型在MTEB多語言檢索中得分為60.3，子1億參數模型中最佳；311M模型得分為65.2，5億參數以下模型中排名第二。
支持32K令牌上下文，比前代R1提升64倍；覆蓋200+語言，其中52種語言和9種編程語言經過專門檢索訓練。
基於ModernBERT架構，採用旋轉位置編碼和Flash Attention 2.0，支持Matryoshka嵌入維度裁剪。
開源Apache 2.0許可，兼容sentence-transformers、LangChain等框架，支持ONNX和OpenVINO推理。

為甚麼重要

這條新聞值得關注，因為97M參數模型在MTEB多語言檢索中得分為60.3，子1億參數模型中最佳；311M模型得分為65.2，5億參數以下模型中排名第二。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

本面板由 AI 生成，經人工審核。

IBM近日發佈了Granite Embedding Multilingual R2系列多語言嵌入模型，包含granite-embedding-311m-multilingual-r2（311M參數）和granite-embedding-97m-multilingual-r2（97M參數）兩個版本。這兩個模型均基於ModernBERT架構構建，支持長達32,768個令牌的上下文窗口（相比前代R1的512令牌提升64倍），並採用Apache 2.0開源許可證發佈。

在基準測試方面，97M模型在MTEB多語言檢索基準（涵蓋18種語言）上取得了60.3分的成績，在所有開源子1億參數模型中排名第一，相比前代R1提升了12.2分。311M模型則取得了65.2分，在5億參數以下開源模型中排名第二，相比R1提升了13.0分。在LongEmbed長文檔檢索基準上，97M和311M模型分別比R1提升了31.3分和34.0分，這直接得益於32K上下文窗口的擴展。

兩個模型均支持200多種語言，其中52種語言（包括中文、日語、阿拉伯語等）和9種編程語言（Python、Go、Java、JavaScript、PHP、Ruby、SQL、C、C++）經過專門的檢索訓練。模型還支持雙語和跨語言代碼檢索。訓練數據經過IBM嚴格的治理流程，避免使用MS-MARCO等非商業許可數據集，並採用GneissWeb等IBM策劃的數據集，確保企業級部署的合規性。

在技術實現上，R2系列從XLM-RoBERTa轉向ModernBERT，採用交替注意力機制減少長序列計算量，旋轉位置編碼支持原生32K上下文，並集成Flash Attention 2.0加速。311M模型使用262K令牌的Gemma 3分詞器，97M模型則從GPT-OSS分詞器裁剪為緊湊的180K令牌詞彙表，在保持多語言覆蓋的同時減少參數佔用。分詞器效率至關重要——32K上下文窗口看似驚人，但如果分詞器效率低下，可能一半的令牌都用於編碼單個泰語段落。

訓練流程包括知識蒸餾（從Granite 3.3 Instruct和Mistral v0.2 Instruct等多個教師模型學習）、對比微調（使用多語言檢索對和難負樣本）、模型合併以及Matryoshka表示學習（768維嵌入可裁剪至512/384/256/128維而質量損失極小）。97M模型還通過詞彙選擇與知識蒸餾相結合的方式訓練：先裁剪詞彙表，再從Granite 4.1 8B等教師模型蒸餾，最終在保持多語言覆蓋的同時將參數減少約3倍，檢索質量僅略低於311M模型。

在更廣泛的競爭格局中，harrier-oss-v1-270m在MTEB多語言檢索（66.4）和RaR-b（32.9）上領先，但Granite R2模型在LongEmbed上以71.7分排名第一，在代碼檢索上也表現優異。97M R2模型在平均得分上超越了multilingual-e5-base和gte-multilingual-base（約300M參數模型），儘管體積小3倍。廣泛用作框架默認的paraphrase-multilingual-MiniLM-L12-v2得分為36.6，比97M R2低23.7分，而後者參數更少（97M vs 110M）且輸出維度相同（384）。

這兩個模型可直接作為sentence-transformers、LangChain、LlamaIndex、Haystack和Milvus等框架的即插即用替代品，僅需一行代碼更改模型名稱。同時提供ONNX和OpenVINO權重以支持CPU優化推理。對於當前僅使用英文默認模型的框架，這一行更改即可為所有用户提供200+語言支持，無需API變更、新依賴或代碼修改。