AI News HubLIVE
站内改写2 分鐘閱讀

Liquid AI 發佈 LFM2.5-Embedding-350M 和 LFM2.5-ColBERT-350M:用於跨11種語言的快速多語言搜索的密集雙編碼器和後期交互模型

Liquid AI 發佈了兩個新的檢索模型:LFM2.5-Embedding-350M(密集雙編碼器)和 LFM2.5-ColBERT-350M(後期交互模型),均基於 LFM2.5-350M-Base 並適應為雙向編碼器。它們支持 11 種語言的多語言和跨語言搜索,體積小可運行於邊緣設備,在 NanoBEIR 和 MKQA-11 基準測試中領先同類模型。

來源MarkTechPost作者: Asif Razzaq

本週,Liquid AI 發佈了兩個新的檢索模型:LFM2.5-ColBERT-350M 和 LFM2.5-Embedding-350M。兩者均擁有 3.5 億參數,是 LFM 系列中首批雙向模型,基於今年 3 月發佈的 LFM2.5-350M-Base 構建。這兩款模型專為快速的多語言和跨語言搜索而設計,覆蓋 11 種語言,且體積小巧,幾乎可以在任何設備上運行。目前已在 Hugging Face 上以 LFM Open License v1.0 開源。

LFM2.5 檢索器雖共享同一骨幹網絡,但文本表示方式不同。LFM2.5-Embedding-350M 是一種密集雙編碼器,將每個文檔轉換為單個向量,適合追求最快搜索速度和最小索引的場景。而 LFM2.5-ColBERT-350M 是一種後期交互模型,將每個 Token 轉換為向量,從而實現逐詞匹配,精度更高且泛化能力更強,但索引更大。後者查詢長度限制為 32 個 Token,還可對第一階段檢索結果進行重排序,無需構建索引。

兩款模型均針對短文本搜索優化,適用於產品目錄、常見問題知識庫和幫助文檔等場景。Liquid AI 將其定位為現有 RAG 管道的直接替換方案。

架構上,模型從 LFM2.5-350M-Base 出發,通過少量雙向補丁將其從因果解碼器改造為雙向編碼器。因果設置下每個 Token 僅能依賴自身及之前 Token,而雙向注意力掩碼允許每個 Token 關注左右上下文。同時,LFM2 的短卷積也改為非因果,實現對稱的局部信息混合。這一改進保留了 LFM2 骨幹的效率,同時生成了檢索所需的全上下文表示。每個模型包含 17 層:10 層卷積、6 層注意力和 1 層池化或密集層。上下文長度可達 32,768 個 Token,但文檔優化為 512 Token。兩種模型僅在輸出端不同:Embedding 使用 CLS 風格池化生成 1024 維向量,ColBERT 則為每個 Token 保留 128 維嵌入用於 MaxSim 後期交互。

訓練採用三階段流程:第一階段為大規模英語對比預訓練;第二階段為跨 11 種語言的多語言和跨語言蒸餾;第三階段為基於難負樣本的最終微調。其中 Embedding 模型比 ColBERT 使用了稍多的跨語言數據,因為後期交互結構更自然地支持跨語言檢索。訓練數據結合了內部數據和開源英語檢索數據集,並通過 LLM 翻譯擴展多語言對。

在評估中,Liquid AI 測試了多語言檢索(NanoBEIR)和跨語言開放域問答(MKQA-11)兩項能力。結果顯示,兩種模型在各自類別中均領先。例如,LFM2.5-ColBERT-350M 在 NanoBEIR 上平均 NDCG@10 達 0.605,MKQA-11 Recall@20 達 0.694;而 Embedding 模型分別為 0.577 和 0.691,均優於更大的 Qwen3-Embedding-0.6B。新 ColBERT 相比早期 LFM2-ColBERT-350M 也有顯著提升。

為支持邊緣部署,Liquid AI 發佈了 GGUF 變體,可通過 llama.cpp 在 CPU、筆記本等設備上運行。在 MacBook Pro M4 Max 上,當文檔嵌入預計算時,查詢延遲中位數低於 10 毫秒。在企業級 GPU(如 H100)上,延遲可低至 1 毫秒。

應用場景包括:電商多語言產品搜索、多語言 FAQ 知識庫、設備端語義搜索以及企業跨語言知識助手。ColBERT 尤其適合對答案精度要求高於索引大小的場景。

模型可通過 sentence-transformers 和 PyLate 輕鬆集成到現有 RAG 管道中。LFM Open License v1.0 允許商業使用和修改。

Liquid AI 發佈 LFM2.5-Embedding-350M 和 LFM2.5-ColBERT-350M:用於跨11種語言的快速多語言搜索的密集雙編碼器和後期交互模型 | AI News Hub