Liquid AI 釋出 LFM2.5-Embedding-350M 和 LFM2.5-ColBERT-350M:用於跨11種語言的快速多語言搜尋的密集雙編碼器和後期互動模型
Liquid AI 釋出了兩個新的檢索模型:LFM2.5-Embedding-350M(密集雙編碼器)和 LFM2.5-ColBERT-350M(後期互動模型),均基於 LFM2.5-350M-Base 並適應為雙向編碼器。它們支援 11 種語言的多語言和跨語言搜尋,體積小可執行於邊緣裝置,在 NanoBEIR 和 MKQA-11 基準測試中領先同類模型。
本週,Liquid AI 釋出了兩個新的檢索模型:LFM2.5-ColBERT-350M 和 LFM2.5-Embedding-350M。兩者均擁有 3.5 億引數,是 LFM 系列中首批雙向模型,基於今年 3 月釋出的 LFM2.5-350M-Base 構建。這兩款模型專為快速的多語言和跨語言搜尋而設計,覆蓋 11 種語言,且體積小巧,幾乎可以在任何裝置上執行。目前已在 Hugging Face 上以 LFM Open License v1.0 開源。
LFM2.5 檢索器雖共享同一骨幹網路,但文本表示方式不同。LFM2.5-Embedding-350M 是一種密集雙編碼器,將每個文件轉換為單個向量,適合追求最快搜尋速度和最小索引的場景。而 LFM2.5-ColBERT-350M 是一種後期互動模型,將每個 Token 轉換為向量,從而實現逐詞匹配,精度更高且泛化能力更強,但索引更大。後者查詢長度限制為 32 個 Token,還可對第一階段檢索結果進行重排序,無需構建索引。
兩款模型均針對短文本搜尋最佳化,適用於產品目錄、常見問題知識庫和幫助文件等場景。Liquid AI 將其定位為現有 RAG 管道的直接替換方案。
架構上,模型從 LFM2.5-350M-Base 出發,透過少量雙向補丁將其從因果解碼器改造為雙向編碼器。因果設定下每個 Token 僅能依賴自身及之前 Token,而雙向注意力掩碼允許每個 Token 關注左右上下文。同時,LFM2 的短卷積也改為非因果,實現對稱的區域性資訊混合。這一改進保留了 LFM2 骨幹的效率,同時生成了檢索所需的全上下文表示。每個模型包含 17 層:10 層卷積、6 層注意力和 1 層池化或密集層。上下文長度可達 32,768 個 Token,但文件最佳化為 512 Token。兩種模型僅在輸出端不同:Embedding 使用 CLS 風格池化生成 1024 維向量,ColBERT 則為每個 Token 保留 128 維嵌入用於 MaxSim 後期互動。
訓練採用三階段流程:第一階段為大規模英語對比預訓練;第二階段為跨 11 種語言的多語言和跨語言蒸餾;第三階段為基於難負樣本的最終微調。其中 Embedding 模型比 ColBERT 使用了稍多的跨語言資料,因為後期互動結構更自然地支援跨語言檢索。訓練資料結合了內部資料和開源英語檢索資料集,並透過 LLM 翻譯擴充套件多語言對。
在評估中,Liquid AI 測試了多語言檢索(NanoBEIR)和跨語言開放域問答(MKQA-11)兩項能力。結果顯示,兩種模型在各自類別中均領先。例如,LFM2.5-ColBERT-350M 在 NanoBEIR 上平均 NDCG@10 達 0.605,MKQA-11 Recall@20 達 0.694;而 Embedding 模型分別為 0.577 和 0.691,均優於更大的 Qwen3-Embedding-0.6B。新 ColBERT 相比早期 LFM2-ColBERT-350M 也有顯著提升。
為支援邊緣部署,Liquid AI 釋出了 GGUF 變體,可透過 llama.cpp 在 CPU、筆記本等裝置上執行。在 MacBook Pro M4 Max 上,當文件嵌入預計算時,查詢延遲中位數低於 10 毫秒。在企業級 GPU(如 H100)上,延遲可低至 1 毫秒。
應用場景包括:電商多語言產品搜尋、多語言 FAQ 知識庫、裝置端語義搜尋以及企業跨語言知識助手。ColBERT 尤其適合對答案精度要求高於索引大小的場景。
模型可透過 sentence-transformers 和 PyLate 輕鬆整合到現有 RAG 管道中。LFM Open License v1.0 允許商業使用和修改。