AI News HubLIVE
站内改写3 分で読了

Liquid AI、LFM2.5-Embedding-350MおよびLFM2.5-ColBERT-350Mを発表:11言語対応の高速多言語検索のためのDense Bi-EncoderとLate-Interactionモデル

Liquid AIは2つの新しい検索モデル、LFM2.5-Embedding-350M(Dense Bi-Encoder)とLFM2.5-ColBERT-350M(Late-Interaction)をリリースしました。どちらもLFM2.5-350M-Baseをベースに双方向エンコーダに適応させたもので、11言語の多言語・言語間検索に対応し、エッジデバイスでも動作可能。NanoBEIRおよびMKQA-11ベンチマークで大規模モデルを凌駕します。

ソースMarkTechPost著者: Asif Razzaq

今週、Liquid AIは2つの新しい検索モデル、LFM2.5-ColBERT-350MとLFM2.5-Embedding-350Mをリリースしました。どちらも3億5000万パラメータを持ち、LFMシリーズ初の双方向モデルです。3月にリリースされたLFM2.5-350M-Baseを基盤としており、11言語にわたる高速な多言語・言語間検索を実現します。また、フットプリントが小さいため、ほぼすべてのデバイスで動作可能です。現在、Hugging Face上でLFM Open License v1.0の下で公開されています。

LFM2.5検索モデルは同じバックボーンを共有しますが、テキストの表現方法が異なります。LFM2.5-Embedding-350MはDense Bi-Encoderで、各ドキュメントを単一のベクトルに変換します。最速の検索と最小のインデックスを求める場合に適しています。一方、LFM2.5-ColBERT-350MはLate-Interactionモデルで、各トークンをベクトルに変換し、単語単位でのマッチングを可能にします。これにより精度が向上し、一般化能力も高まりますが、インデックスは大きくなります。クエリ長は32トークンに制限されており、インデックスを構築せずに一次検索結果の再ランキングも行えます。

両モデルは短いテキストの検索に最適化されており、製品カタログ、FAQナレッジベース、サポートドキュメントなどの用途に適しています。Liquid AIは、既存のRAGパイプラインのドロップイン代替として位置づけています。

アーキテクチャの変更点として、LFM2.5-350M-Baseに双方向アテンションパッチを適用し、因果デコーダから双方向エンコーダに変換しています。因果設定では各トークンが自身と過去のトークンのみに依存しますが、双方向アテンションマスクにより各トークンが左右両方のコンテキストを参照できるようになります。また、LFM2の短い畳み込みも非因果に変更され、局所情報を対称的に混合します。これにより、LFM2バックボーンの効率性を保ちながら、検索に必要な全コンテキスト表現を生成します。各モデルは17層で構成され、10層の畳み込み、6層のアテンション、1層のプーリングまたは密層を持ちます。コンテキスト長は32,768トークンですが、ドキュメントは512トークンに調整されています。出力層のみが異なり、EmbeddingモデルはCLSプーリングで1024次元の単一ベクトルを、ColBERTモデルはトークンごとに128次元の埋め込みを生成し、MaxSimで後期相互作用を行います。

トレーニングは3段階で行われます。第1段階は大規模な英語コントラスト事前学習、第2段階は全11言語にわたる多言語・言語間蒸留、第3段階はハードネガティブを用いた最終ファインチューニングです。EmbeddingモデルはColBERTよりもわずかに多くの言語間データを使用しますが、これは後期相互作用の設定が自然に言語間検索を促進するためです。トレーニングデータは内部データとオープンソースの英語検索データセットを組み合わせ、LLMによる翻訳で多言語ペアを拡張しています。

評価では、NanoBEIRによる多言語検索とMKQA-11による言語間オープンドメインQAの2つの能力がテストされました。結果として、両モデルはそれぞれのクラスでリーダーシップを発揮しました。例えば、LFM2.5-ColBERT-350MはNanoBEIRで平均NDCG@10が0.605、MKQA-11でRecall@20が0.694を達成。Embeddingモデルもそれぞれ0.577と0.691で、より大規模なQwen3-Embedding-0.6Bを上回りました。新しいColBERTは以前のLFM2-ColBERT-350Mからも大幅に改善しています。

エッジ展開のために、Liquid AIはllama.cpp用のGGUFバリアントをリリースしました。これにより、CPUやノートパソコン、エッジデバイス上でモデルを実行できます。MacBook Pro M4 Maxでのテストでは、ドキュメント埋め込みを事前計算した場合、クエリレイテンシの中央値は10ミリ秒未満でした。エンタープライズ向けにはH100 GPU上で1ミリ秒という低レイテンシも達成されています。

ユースケースとしては、eコマースでの多言語製品検索、FAQナレッジベース、オンデバイスセマンティック検索、エンタープライズ知識アシスタントなどが挙げられます。ColBERTは、インデックスサイズよりも回答精度が重要な場合に適しています。

モデルはsentence-transformersおよびPyLateを通じて既存のRAGパイプラインに容易に統合でき、LFM Open License v1.0の下で商用利用や改変が可能です。