Liquid AI 发布 LFM2.5-Embedding-350M 和 LFM2.5-ColBERT-350M:用于跨11种语言的快速多语言搜索的密集双编码器和后期交互模型
Liquid AI 发布了两个新的检索模型:LFM2.5-Embedding-350M(密集双编码器)和 LFM2.5-ColBERT-350M(后期交互模型),均基于 LFM2.5-350M-Base 并适应为双向编码器。它们支持 11 种语言的多语言和跨语言搜索,体积小可运行于边缘设备,在 NanoBEIR 和 MKQA-11 基准测试中领先同类模型。
本周,Liquid AI 发布了两个新的检索模型:LFM2.5-ColBERT-350M 和 LFM2.5-Embedding-350M。两者均拥有 3.5 亿参数,是 LFM 系列中首批双向模型,基于今年 3 月发布的 LFM2.5-350M-Base 构建。这两款模型专为快速的多语言和跨语言搜索而设计,覆盖 11 种语言,且体积小巧,几乎可以在任何设备上运行。目前已在 Hugging Face 上以 LFM Open License v1.0 开源。
LFM2.5 检索器虽共享同一骨干网络,但文本表示方式不同。LFM2.5-Embedding-350M 是一种密集双编码器,将每个文档转换为单个向量,适合追求最快搜索速度和最小索引的场景。而 LFM2.5-ColBERT-350M 是一种后期交互模型,将每个 Token 转换为向量,从而实现逐词匹配,精度更高且泛化能力更强,但索引更大。后者查询长度限制为 32 个 Token,还可对第一阶段检索结果进行重排序,无需构建索引。
两款模型均针对短文本搜索优化,适用于产品目录、常见问题知识库和帮助文档等场景。Liquid AI 将其定位为现有 RAG 管道的直接替换方案。
架构上,模型从 LFM2.5-350M-Base 出发,通过少量双向补丁将其从因果解码器改造为双向编码器。因果设置下每个 Token 仅能依赖自身及之前 Token,而双向注意力掩码允许每个 Token 关注左右上下文。同时,LFM2 的短卷积也改为非因果,实现对称的局部信息混合。这一改进保留了 LFM2 骨干的效率,同时生成了检索所需的全上下文表示。每个模型包含 17 层:10 层卷积、6 层注意力和 1 层池化或密集层。上下文长度可达 32,768 个 Token,但文档优化为 512 Token。两种模型仅在输出端不同:Embedding 使用 CLS 风格池化生成 1024 维向量,ColBERT 则为每个 Token 保留 128 维嵌入用于 MaxSim 后期交互。
训练采用三阶段流程:第一阶段为大规模英语对比预训练;第二阶段为跨 11 种语言的多语言和跨语言蒸馏;第三阶段为基于难负样本的最终微调。其中 Embedding 模型比 ColBERT 使用了稍多的跨语言数据,因为后期交互结构更自然地支持跨语言检索。训练数据结合了内部数据和开源英语检索数据集,并通过 LLM 翻译扩展多语言对。
在评估中,Liquid AI 测试了多语言检索(NanoBEIR)和跨语言开放域问答(MKQA-11)两项能力。结果显示,两种模型在各自类别中均领先。例如,LFM2.5-ColBERT-350M 在 NanoBEIR 上平均 NDCG@10 达 0.605,MKQA-11 Recall@20 达 0.694;而 Embedding 模型分别为 0.577 和 0.691,均优于更大的 Qwen3-Embedding-0.6B。新 ColBERT 相比早期 LFM2-ColBERT-350M 也有显著提升。
为支持边缘部署,Liquid AI 发布了 GGUF 变体,可通过 llama.cpp 在 CPU、笔记本等设备上运行。在 MacBook Pro M4 Max 上,当文档嵌入预计算时,查询延迟中位数低于 10 毫秒。在企业级 GPU(如 H100)上,延迟可低至 1 毫秒。
应用场景包括:电商多语言产品搜索、多语言 FAQ 知识库、设备端语义搜索以及企业跨语言知识助手。ColBERT 尤其适合对答案精度要求高于索引大小的场景。
模型可通过 sentence-transformers 和 PyLate 轻松集成到现有 RAG 管道中。LFM Open License v1.0 允许商业使用和修改。