2026-06-19站内改写2 分钟阅读更新: 2026-06-19

Liquid AI 发布 LFM2.5-Embedding-350M 和 LFM2.5-ColBERT-350M：用于跨11种语言的快速多语言搜索的密集双编码器和后期交互模型

Liquid AI 发布了两个新的检索模型：LFM2.5-Embedding-350M（密集双编码器）和 LFM2.5-ColBERT-350M（后期交互模型），均基于 LFM2.5-350M-Base 并适应为双向编码器。它们支持 11 种语言的多语言和跨语言搜索，体积小可运行于边缘设备，在 NanoBEIR 和 MKQA-11 基准测试中领先同类模型。

来源MarkTechPost作者: Asif Razzaq

本周，Liquid AI 发布了两个新的检索模型：LFM2.5-ColBERT-350M 和 LFM2.5-Embedding-350M。两者均拥有 3.5 亿参数，是 LFM 系列中首批双向模型，基于今年 3 月发布的 LFM2.5-350M-Base 构建。这两款模型专为快速的多语言和跨语言搜索而设计，覆盖 11 种语言，且体积小巧，几乎可以在任何设备上运行。目前已在 Hugging Face 上以 LFM Open License v1.0 开源。

LFM2.5 检索器虽共享同一骨干网络，但文本表示方式不同。LFM2.5-Embedding-350M 是一种密集双编码器，将每个文档转换为单个向量，适合追求最快搜索速度和最小索引的场景。而 LFM2.5-ColBERT-350M 是一种后期交互模型，将每个 Token 转换为向量，从而实现逐词匹配，精度更高且泛化能力更强，但索引更大。后者查询长度限制为 32 个 Token，还可对第一阶段检索结果进行重排序，无需构建索引。

两款模型均针对短文本搜索优化，适用于产品目录、常见问题知识库和帮助文档等场景。Liquid AI 将其定位为现有 RAG 管道的直接替换方案。

架构上，模型从 LFM2.5-350M-Base 出发，通过少量双向补丁将其从因果解码器改造为双向编码器。因果设置下每个 Token 仅能依赖自身及之前 Token，而双向注意力掩码允许每个 Token 关注左右上下文。同时，LFM2 的短卷积也改为非因果，实现对称的局部信息混合。这一改进保留了 LFM2 骨干的效率，同时生成了检索所需的全上下文表示。每个模型包含 17 层：10 层卷积、6 层注意力和 1 层池化或密集层。上下文长度可达 32,768 个 Token，但文档优化为 512 Token。两种模型仅在输出端不同：Embedding 使用 CLS 风格池化生成 1024 维向量，ColBERT 则为每个 Token 保留 128 维嵌入用于 MaxSim 后期交互。

训练采用三阶段流程：第一阶段为大规模英语对比预训练；第二阶段为跨 11 种语言的多语言和跨语言蒸馏；第三阶段为基于难负样本的最终微调。其中 Embedding 模型比 ColBERT 使用了稍多的跨语言数据，因为后期交互结构更自然地支持跨语言检索。训练数据结合了内部数据和开源英语检索数据集，并通过 LLM 翻译扩展多语言对。

在评估中，Liquid AI 测试了多语言检索（NanoBEIR）和跨语言开放域问答（MKQA-11）两项能力。结果显示，两种模型在各自类别中均领先。例如，LFM2.5-ColBERT-350M 在 NanoBEIR 上平均 NDCG@10 达 0.605，MKQA-11 Recall@20 达 0.694；而 Embedding 模型分别为 0.577 和 0.691，均优于更大的 Qwen3-Embedding-0.6B。新 ColBERT 相比早期 LFM2-ColBERT-350M 也有显著提升。

为支持边缘部署，Liquid AI 发布了 GGUF 变体，可通过 llama.cpp 在 CPU、笔记本等设备上运行。在 MacBook Pro M4 Max 上，当文档嵌入预计算时，查询延迟中位数低于 10 毫秒。在企业级 GPU（如 H100）上，延迟可低至 1 毫秒。

应用场景包括：电商多语言产品搜索、多语言 FAQ 知识库、设备端语义搜索以及企业跨语言知识助手。ColBERT 尤其适合对答案精度要求高于索引大小的场景。

模型可通过 sentence-transformers 和 PyLate 轻松集成到现有 RAG 管道中。LFM Open License v1.0 允许商业使用和修改。