2026-06-19站内改写2 分鐘閱讀更新: 2026-06-19

Liquid AI 發佈 LFM2.5-Embedding-350M 和 LFM2.5-ColBERT-350M：用於跨11種語言的快速多語言搜索的密集雙編碼器和後期交互模型

Liquid AI 發佈了兩個新的檢索模型：LFM2.5-Embedding-350M（密集雙編碼器）和 LFM2.5-ColBERT-350M（後期交互模型），均基於 LFM2.5-350M-Base 並適應為雙向編碼器。它們支持 11 種語言的多語言和跨語言搜索，體積小可運行於邊緣設備，在 NanoBEIR 和 MKQA-11 基準測試中領先同類模型。

來源MarkTechPost作者: Asif Razzaq

本週，Liquid AI 發佈了兩個新的檢索模型：LFM2.5-ColBERT-350M 和 LFM2.5-Embedding-350M。兩者均擁有 3.5 億參數，是 LFM 系列中首批雙向模型，基於今年 3 月發佈的 LFM2.5-350M-Base 構建。這兩款模型專為快速的多語言和跨語言搜索而設計，覆蓋 11 種語言，且體積小巧，幾乎可以在任何設備上運行。目前已在 Hugging Face 上以 LFM Open License v1.0 開源。

LFM2.5 檢索器雖共享同一骨幹網絡，但文本表示方式不同。LFM2.5-Embedding-350M 是一種密集雙編碼器，將每個文檔轉換為單個向量，適合追求最快搜索速度和最小索引的場景。而 LFM2.5-ColBERT-350M 是一種後期交互模型，將每個 Token 轉換為向量，從而實現逐詞匹配，精度更高且泛化能力更強，但索引更大。後者查詢長度限制為 32 個 Token，還可對第一階段檢索結果進行重排序，無需構建索引。

兩款模型均針對短文本搜索優化，適用於產品目錄、常見問題知識庫和幫助文檔等場景。Liquid AI 將其定位為現有 RAG 管道的直接替換方案。

架構上，模型從 LFM2.5-350M-Base 出發，通過少量雙向補丁將其從因果解碼器改造為雙向編碼器。因果設置下每個 Token 僅能依賴自身及之前 Token，而雙向注意力掩碼允許每個 Token 關注左右上下文。同時，LFM2 的短卷積也改為非因果，實現對稱的局部信息混合。這一改進保留了 LFM2 骨幹的效率，同時生成了檢索所需的全上下文表示。每個模型包含 17 層：10 層卷積、6 層注意力和 1 層池化或密集層。上下文長度可達 32,768 個 Token，但文檔優化為 512 Token。兩種模型僅在輸出端不同：Embedding 使用 CLS 風格池化生成 1024 維向量，ColBERT 則為每個 Token 保留 128 維嵌入用於 MaxSim 後期交互。

訓練採用三階段流程：第一階段為大規模英語對比預訓練；第二階段為跨 11 種語言的多語言和跨語言蒸餾；第三階段為基於難負樣本的最終微調。其中 Embedding 模型比 ColBERT 使用了稍多的跨語言數據，因為後期交互結構更自然地支持跨語言檢索。訓練數據結合了內部數據和開源英語檢索數據集，並通過 LLM 翻譯擴展多語言對。

在評估中，Liquid AI 測試了多語言檢索（NanoBEIR）和跨語言開放域問答（MKQA-11）兩項能力。結果顯示，兩種模型在各自類別中均領先。例如，LFM2.5-ColBERT-350M 在 NanoBEIR 上平均 NDCG@10 達 0.605，MKQA-11 Recall@20 達 0.694；而 Embedding 模型分別為 0.577 和 0.691，均優於更大的 Qwen3-Embedding-0.6B。新 ColBERT 相比早期 LFM2-ColBERT-350M 也有顯著提升。

為支持邊緣部署，Liquid AI 發佈了 GGUF 變體，可通過 llama.cpp 在 CPU、筆記本等設備上運行。在 MacBook Pro M4 Max 上，當文檔嵌入預計算時，查詢延遲中位數低於 10 毫秒。在企業級 GPU（如 H100）上，延遲可低至 1 毫秒。

應用場景包括：電商多語言產品搜索、多語言 FAQ 知識庫、設備端語義搜索以及企業跨語言知識助手。ColBERT 尤其適合對答案精度要求高於索引大小的場景。

模型可通過 sentence-transformers 和 PyLate 輕鬆集成到現有 RAG 管道中。LFM Open License v1.0 允許商業使用和修改。