AI News HubLIVE
站内改写

Granite Embedding Multilingual R2:オープンApache 2.0多言語埋め込みモデル、32Kコンテキスト、1億パラメータ未満で最高の検索品質

IBMがGranite Embedding Multilingual R2シリーズを発表。97Mおよび311Mパラメータの2つの多言語埋め込みモデルで、ModernBERTベース、32Kトークンコンテキスト、200+言語対応。MTEB多言語検索ベンチマークで97Mモデルは1億パラメータ未満で最高、311Mモデルは5億パラメータ未満で2位を獲得。

記事インテリジェンス

エンジニア上級

要点

  • 97MモデルはMTEB多言語検索で60.3点、1億パラメータ未満で最高;311Mモデルは65.2点、5億パラメータ未満で2位。
  • 32Kトークンコンテキスト(R1の64倍)、200+言語対応、52言語と9プログラミング言語が検索用に特化訓練。
  • ModernBERTアーキテクチャ採用、回転位置エンコーディングとFlash Attention 2.0対応、Matryoshka埋め込み次元削減をサポート。
  • Apache 2.0ライセンス、sentence-transformersやLangChain等と互換、ONNXおよびOpenVINO重み提供。

重要な理由

このニュースが重要なのは、97MモデルはMTEB多言語検索で60.3点、1億パラメータ未満で最高;311Mモデルは65.2点、5億パラメータ未満で2位ためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

IBMは、Granite Embedding Multilingual R2シリーズの多言語埋め込みモデルをリリースしました。このシリーズには、granite-embedding-311m-multilingual-r2(311Mパラメータ)とgranite-embedding-97m-multilingual-r2(97Mパラメータ)の2つが含まれます。両モデルはModernBERTアーキテクチャに基づいて構築され、最大32,768トークンのコンテキストウィンドウ(前世代R1の512トークンから64倍拡大)をサポートし、Apache 2.0ライセンスで公開されています。

ベンチマークでは、97MモデルはMTEB多言語検索(18言語)で60.3点を記録し、1億パラメータ未満のオープンモデルで最高スコアを達成(前世代R1から+12.2点)。311Mモデルは65.2点で、5億パラメータ未満のオープンモデル中2位(R1から+13.0点)。LongEmbed長文書検索では、97Mモデルが+31.3点、311Mモデルが+34.0点の改善を示し、32Kコンテキストの恩恵を明確に示しています。

両モデルは200以上の言語をサポートし、そのうち52言語(中国語、日本語、アラビア語など)と9つのプログラミング言語(Python、Go、Java、JavaScript、PHP、Ruby、SQL、C、C++)が検索用に特別に訓練されています。コード検索もクロスリンガル対応です。訓練データはIBMの厳格なガバナンスプロセスを経ており、MS-MARCOなどの非商用ライセンスデータセットを避け、GneissWebなどのIBMキュレーションデータセットを使用することで、エンタープライズ展開のコンプライアンスを確保しています。

技術的には、R2シリーズはXLM-RoBERTaからModernBERTに移行し、交互注意機構による長系列計算の削減、回転位置エンコーディングによるネイティブ32Kコンテキスト、Flash Attention 2.0による高速化を実現。311Mモデルは262KトークンのGemma 3トークナイザを、97MモデルはGPT-OSSトークナイザから180Kトークンに圧縮した語彙を使用し、パラメータ効率を高めています。トークナイザの効率は重要であり、32Kコンテキストウィンドウは一見印象的ですが、非効率なトークナイザではタイ語の1段落をエンコードするだけで半分を消費する可能性があります。

訓練は、知識蒸留(Granite 3.3 InstructやMistral v0.2 Instructからの学習)、対比学習(多言語検索ペアとハードネガティブ)、モデルマージ、およびMatryoshka表現学習(768次元埋め込みを512/384/256/128次元にトリミング可能)の多段階パイプラインで行われました。97Mモデルは語彙選択と知識蒸留を組み合わせて訓練:まず語彙を削減し、Granite 4.1 8Bなどの教師から蒸留、パラメータを約3倍削減しながら言語カバレッジを維持し、検索品質は311Mモデルにわずかに劣る程度です。

より広い競合環境では、harrier-oss-v1-270mがMTEB多言語検索(66.4)とRaR-b(32.9)でリードしていますが、Granite R2モデルはLongEmbedで71.7点(1位)、コード検索でも優れた性能を示しています。97M R2モデルは平均スコアでmultilingual-e5-baseやgte-multilingual-base(約300Mパラメータ)を上回り、サイズは約3分の1です。広くフレームワークのデフォルトとして使われるparaphrase-multilingual-MiniLM-L12-v2のスコアは36.6で、97M R2よりも23.7点低く、後者はパラメータが少なく(97M対110M)、出力次元は同じ384です。

これらのモデルは、sentence-transformers、LangChain、LlamaIndex、Haystack、Milvusに一行のモデル名変更でドロップイン置換可能。ONNXおよびOpenVINO重みも提供され、CPU最適化推論に対応します。現在英語のみのデフォルトモデルを使用しているフレームワークでは、この一行の変更で200以上の言語をサポートでき、API変更、新しい依存関係、コード修正は不要です。