Granite Embedding Multilingual R2:開源Apache 2.0多語言嵌入模型,32K上下文,子1億引數中檢索質量最佳
IBM釋出Granite Embedding Multilingual R2系列,包含97M和311M引數兩個多語言嵌入模型,均基於ModernBERT架構,支援32K令牌上下文,覆蓋200+語言,並在MTEB多語言檢索基準上取得領先成績。97M模型在子1億引數模型中排名第一,311M模型在5億引數以下模型中排名第二。
文章情報
要點
- 97M引數模型在MTEB多語言檢索中得分為60.3,子1億引數模型中最佳;311M模型得分為65.2,5億引數以下模型中排名第二。
- 支援32K令牌上下文,比前代R1提升64倍;覆蓋200+語言,其中52種語言和9種程式語言經過專門檢索訓練。
- 基於ModernBERT架構,採用旋轉位置編碼和Flash Attention 2.0,支援Matryoshka嵌入維度裁剪。
- 開源Apache 2.0許可,相容sentence-transformers、LangChain等框架,支援ONNX和OpenVINO推理。
為什麼重要
這條新聞值得關注,因為97M引數模型在MTEB多語言檢索中得分為60.3,子1億引數模型中最佳;311M模型得分為65.2,5億引數以下模型中排名第二。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
IBM近日釋出了Granite Embedding Multilingual R2系列多語言嵌入模型,包含granite-embedding-311m-multilingual-r2(311M引數)和granite-embedding-97m-multilingual-r2(97M引數)兩個版本。這兩個模型均基於ModernBERT架構構建,支援長達32,768個令牌的上下文視窗(相比前代R1的512令牌提升64倍),並採用Apache 2.0開源許可證釋出。
在基準測試方面,97M模型在MTEB多語言檢索基準(涵蓋18種語言)上取得了60.3分的成績,在所有開源子1億引數模型中排名第一,相比前代R1提升了12.2分。311M模型則取得了65.2分,在5億引數以下開源模型中排名第二,相比R1提升了13.0分。在LongEmbed長文件檢索基準上,97M和311M模型分別比R1提升了31.3分和34.0分,這直接得益於32K上下文視窗的擴充套件。
兩個模型均支援200多種語言,其中52種語言(包括中文、日語、阿拉伯語等)和9種程式語言(Python、Go、Java、JavaScript、PHP、Ruby、SQL、C、C++)經過專門的檢索訓練。模型還支援雙語和跨語言程式碼檢索。訓練資料經過IBM嚴格的治理流程,避免使用MS-MARCO等非商業許可資料集,並採用GneissWeb等IBM策劃的資料集,確保企業級部署的合規性。
在技術實現上,R2系列從XLM-RoBERTa轉向ModernBERT,採用交替注意力機制減少長序列計算量,旋轉位置編碼支援原生32K上下文,並整合Flash Attention 2.0加速。311M模型使用262K令牌的Gemma 3分詞器,97M模型則從GPT-OSS分詞器裁剪為緊湊的180K令牌詞彙表,在保持多語言覆蓋的同時減少引數佔用。分詞器效率至關重要——32K上下文視窗看似驚人,但如果分詞器效率低下,可能一半的令牌都用於編碼單個泰語段落。
訓練流程包括知識蒸餾(從Granite 3.3 Instruct和Mistral v0.2 Instruct等多個教師模型學習)、對比微調(使用多語言檢索對和難負樣本)、模型合併以及Matryoshka表示學習(768維嵌入可裁剪至512/384/256/128維而質量損失極小)。97M模型還透過詞彙選擇與知識蒸餾相結合的方式訓練:先裁剪詞彙表,再從Granite 4.1 8B等教師模型蒸餾,最終在保持多語言覆蓋的同時將引數減少約3倍,檢索質量僅略低於311M模型。
在更廣泛的競爭格局中,harrier-oss-v1-270m在MTEB多語言檢索(66.4)和RaR-b(32.9)上領先,但Granite R2模型在LongEmbed上以71.7分排名第一,在程式碼檢索上也表現優異。97M R2模型在平均得分上超越了multilingual-e5-base和gte-multilingual-base(約300M引數模型),儘管體積小3倍。廣泛用作框架預設的paraphrase-multilingual-MiniLM-L12-v2得分為36.6,比97M R2低23.7分,而後者引數更少(97M vs 110M)且輸出維度相同(384)。
這兩個模型可直接作為sentence-transformers、LangChain、LlamaIndex、Haystack和Milvus等框架的即插即用替代品,僅需一行程式碼更改模型名稱。同時提供ONNX和OpenVINO權重以支援CPU最佳化推理。對於當前僅使用英文預設模型的框架,這一行更改即可為所有使用者提供200+語言支援,無需API變更、新依賴或程式碼修改。