AI News HubLIVE
站内改写

Granite Embedding Multilingual R2:開源Apache 2.0多語言嵌入模型,32K上下文,子1億參數中檢索質量最佳

IBM發佈Granite Embedding Multilingual R2系列,包含97M和311M參數兩個多語言嵌入模型,均基於ModernBERT架構,支持32K令牌上下文,覆蓋200+語言,並在MTEB多語言檢索基準上取得領先成績。97M模型在子1億參數模型中排名第一,311M模型在5億參數以下模型中排名第二。

文章情報

工程師進階

要點

  • 97M參數模型在MTEB多語言檢索中得分為60.3,子1億參數模型中最佳;311M模型得分為65.2,5億參數以下模型中排名第二。
  • 支持32K令牌上下文,比前代R1提升64倍;覆蓋200+語言,其中52種語言和9種編程語言經過專門檢索訓練。
  • 基於ModernBERT架構,採用旋轉位置編碼和Flash Attention 2.0,支持Matryoshka嵌入維度裁剪。
  • 開源Apache 2.0許可,兼容sentence-transformers、LangChain等框架,支持ONNX和OpenVINO推理。

為甚麼重要

這條新聞值得關注,因為97M參數模型在MTEB多語言檢索中得分為60.3,子1億參數模型中最佳;311M模型得分為65.2,5億參數以下模型中排名第二。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

IBM近日發佈了Granite Embedding Multilingual R2系列多語言嵌入模型,包含granite-embedding-311m-multilingual-r2(311M參數)和granite-embedding-97m-multilingual-r2(97M參數)兩個版本。這兩個模型均基於ModernBERT架構構建,支持長達32,768個令牌的上下文窗口(相比前代R1的512令牌提升64倍),並採用Apache 2.0開源許可證發佈。

在基準測試方面,97M模型在MTEB多語言檢索基準(涵蓋18種語言)上取得了60.3分的成績,在所有開源子1億參數模型中排名第一,相比前代R1提升了12.2分。311M模型則取得了65.2分,在5億參數以下開源模型中排名第二,相比R1提升了13.0分。在LongEmbed長文檔檢索基準上,97M和311M模型分別比R1提升了31.3分和34.0分,這直接得益於32K上下文窗口的擴展。

兩個模型均支持200多種語言,其中52種語言(包括中文、日語、阿拉伯語等)和9種編程語言(Python、Go、Java、JavaScript、PHP、Ruby、SQL、C、C++)經過專門的檢索訓練。模型還支持雙語和跨語言代碼檢索。訓練數據經過IBM嚴格的治理流程,避免使用MS-MARCO等非商業許可數據集,並採用GneissWeb等IBM策劃的數據集,確保企業級部署的合規性。

在技術實現上,R2系列從XLM-RoBERTa轉向ModernBERT,採用交替注意力機制減少長序列計算量,旋轉位置編碼支持原生32K上下文,並集成Flash Attention 2.0加速。311M模型使用262K令牌的Gemma 3分詞器,97M模型則從GPT-OSS分詞器裁剪為緊湊的180K令牌詞彙表,在保持多語言覆蓋的同時減少參數佔用。分詞器效率至關重要——32K上下文窗口看似驚人,但如果分詞器效率低下,可能一半的令牌都用於編碼單個泰語段落。

訓練流程包括知識蒸餾(從Granite 3.3 Instruct和Mistral v0.2 Instruct等多個教師模型學習)、對比微調(使用多語言檢索對和難負樣本)、模型合併以及Matryoshka表示學習(768維嵌入可裁剪至512/384/256/128維而質量損失極小)。97M模型還通過詞彙選擇與知識蒸餾相結合的方式訓練:先裁剪詞彙表,再從Granite 4.1 8B等教師模型蒸餾,最終在保持多語言覆蓋的同時將參數減少約3倍,檢索質量僅略低於311M模型。

在更廣泛的競爭格局中,harrier-oss-v1-270m在MTEB多語言檢索(66.4)和RaR-b(32.9)上領先,但Granite R2模型在LongEmbed上以71.7分排名第一,在代碼檢索上也表現優異。97M R2模型在平均得分上超越了multilingual-e5-base和gte-multilingual-base(約300M參數模型),儘管體積小3倍。廣泛用作框架默認的paraphrase-multilingual-MiniLM-L12-v2得分為36.6,比97M R2低23.7分,而後者參數更少(97M vs 110M)且輸出維度相同(384)。

這兩個模型可直接作為sentence-transformers、LangChain、LlamaIndex、Haystack和Milvus等框架的即插即用替代品,僅需一行代碼更改模型名稱。同時提供ONNX和OpenVINO權重以支持CPU優化推理。對於當前僅使用英文默認模型的框架,這一行更改即可為所有用户提供200+語言支持,無需API變更、新依賴或代碼修改。