2026-06-19站内改写2 分鐘閱讀更新: 2026-06-19

Liquid AI 釋出 LFM2.5-Embedding-350M 和 LFM2.5-ColBERT-350M：用於跨11種語言的快速多語言搜尋的密集雙編碼器和後期互動模型

Liquid AI 釋出了兩個新的檢索模型：LFM2.5-Embedding-350M（密集雙編碼器）和 LFM2.5-ColBERT-350M（後期互動模型），均基於 LFM2.5-350M-Base 並適應為雙向編碼器。它們支援 11 種語言的多語言和跨語言搜尋，體積小可執行於邊緣裝置，在 NanoBEIR 和 MKQA-11 基準測試中領先同類模型。

來源MarkTechPost作者: Asif Razzaq

本週，Liquid AI 釋出了兩個新的檢索模型：LFM2.5-ColBERT-350M 和 LFM2.5-Embedding-350M。兩者均擁有 3.5 億引數，是 LFM 系列中首批雙向模型，基於今年 3 月釋出的 LFM2.5-350M-Base 構建。這兩款模型專為快速的多語言和跨語言搜尋而設計，覆蓋 11 種語言，且體積小巧，幾乎可以在任何裝置上執行。目前已在 Hugging Face 上以 LFM Open License v1.0 開源。

LFM2.5 檢索器雖共享同一骨幹網路，但文本表示方式不同。LFM2.5-Embedding-350M 是一種密集雙編碼器，將每個文件轉換為單個向量，適合追求最快搜尋速度和最小索引的場景。而 LFM2.5-ColBERT-350M 是一種後期互動模型，將每個 Token 轉換為向量，從而實現逐詞匹配，精度更高且泛化能力更強，但索引更大。後者查詢長度限制為 32 個 Token，還可對第一階段檢索結果進行重排序，無需構建索引。

兩款模型均針對短文本搜尋最佳化，適用於產品目錄、常見問題知識庫和幫助文件等場景。Liquid AI 將其定位為現有 RAG 管道的直接替換方案。

架構上，模型從 LFM2.5-350M-Base 出發，透過少量雙向補丁將其從因果解碼器改造為雙向編碼器。因果設定下每個 Token 僅能依賴自身及之前 Token，而雙向注意力掩碼允許每個 Token 關注左右上下文。同時，LFM2 的短卷積也改為非因果，實現對稱的區域性資訊混合。這一改進保留了 LFM2 骨幹的效率，同時生成了檢索所需的全上下文表示。每個模型包含 17 層：10 層卷積、6 層注意力和 1 層池化或密集層。上下文長度可達 32,768 個 Token，但文件最佳化為 512 Token。兩種模型僅在輸出端不同：Embedding 使用 CLS 風格池化生成 1024 維向量，ColBERT 則為每個 Token 保留 128 維嵌入用於 MaxSim 後期互動。

訓練採用三階段流程：第一階段為大規模英語對比預訓練；第二階段為跨 11 種語言的多語言和跨語言蒸餾；第三階段為基於難負樣本的最終微調。其中 Embedding 模型比 ColBERT 使用了稍多的跨語言資料，因為後期互動結構更自然地支援跨語言檢索。訓練資料結合了內部資料和開源英語檢索資料集，並透過 LLM 翻譯擴充套件多語言對。

在評估中，Liquid AI 測試了多語言檢索（NanoBEIR）和跨語言開放域問答（MKQA-11）兩項能力。結果顯示，兩種模型在各自類別中均領先。例如，LFM2.5-ColBERT-350M 在 NanoBEIR 上平均 NDCG@10 達 0.605，MKQA-11 Recall@20 達 0.694；而 Embedding 模型分別為 0.577 和 0.691，均優於更大的 Qwen3-Embedding-0.6B。新 ColBERT 相比早期 LFM2-ColBERT-350M 也有顯著提升。

為支援邊緣部署，Liquid AI 釋出了 GGUF 變體，可透過 llama.cpp 在 CPU、筆記本等裝置上執行。在 MacBook Pro M4 Max 上，當文件嵌入預計算時，查詢延遲中位數低於 10 毫秒。在企業級 GPU（如 H100）上，延遲可低至 1 毫秒。

應用場景包括：電商多語言產品搜尋、多語言 FAQ 知識庫、裝置端語義搜尋以及企業跨語言知識助手。ColBERT 尤其適合對答案精度要求高於索引大小的場景。

模型可透過 sentence-transformers 和 PyLate 輕鬆整合到現有 RAG 管道中。LFM Open License v1.0 允許商業使用和修改。