2026-05-29 07:29 UTC+8站内改写3 分钟阅读更新: 2026-06-30 21:03 UTC+8

Liquid AI 发布 LFM2.5-8B-A1B：面向设备的 MoE 模型，总参数量 8.3B，激活参数量 1.5B

Liquid AI 推出了 LFM2.5-8B-A1B，这是一款面向设备的混合专家（MoE）模型，专为工具调用设计。该模型总参数量为 8.3B，但每个 token 仅激活 1.5B 参数，从而能够在消费级硬件上运行。它支持 128K 上下文窗口、推理能力，并覆盖九种语言。相比前代 LFM2-8B-A1B，该模型在非幻觉率、指令遵循、数学推理等基准测试中均有显著提升。

来源MarkTechPost作者: Asif Razzaq

Liquid AI 日前发布了 LFM2.5-8B-A1B，这是一款面向设备的混合专家（Mixture-of-Experts, MoE）模型，专为工具调用而构建。该模型总参数量为 8.3B，但每个 token 仅激活 1.5B 参数，这种稀疏性使其能够在消费级硬件上运行。

此次发布紧随 LFM2-8B-A1B 之后，后者由 Liquid AI 团队更早发布。LFM2.5 是一个用于设备端部署的新系列混合模型。此版本增加了 128K 上下文窗口、推理能力，并扩展了训练规模。

什么是 LFM2.5-8B-A1B 该模型采用稀疏 MoE 设计，每次前向传播仅激活 8.3B 总参数中的 1.5B，这使得每个生成 token 的计算成本低廉。架构包含 24 层，其中 18 层为双门控 LIV 卷积块，6 层为 GQA 层。它结合了 MoE、GQA 和门控短卷积块。上下文长度为 131,072 个 token，覆盖九种语言，包括阿拉伯语、中文和日语。Liquid AI 团队推荐使用温度 0.2、top_k 80 和重复惩罚 1.05。

与前代不同，LFM2.5-8B-A1B 是纯推理模型，在最终答案之前生成显式的思维链。Liquid AI 团队选择此设计是因为 MoE 模型在计算受限的环境中运行，较小的激活参数数量使每个推理 token 成本较低。

自 LFM2-8B-A1B 以来的变化 Liquid 将上下文窗口从 32,768 扩展到 128,000 个 token。预训练数据从 12T token 扩展到 38T。词汇量从 65,536 翻倍至 128,000。更大的词汇量更高效地对非拉丁文字进行分词。Liquid AI 团队报告称，印地语、泰语、越南语、印度尼西亚语和阿拉伯语的压缩增益最大。架构的其他部分与 LFM2-8B-A1B 保持一致。

训练过程 Liquid AI 团队对分词器进行了原地扩展，而非从头重新训练。他们在多语言语料库上从原始合并继续 BPE 合并训练。新的嵌入行初始化为其子 token 分解的均值。随后通过简短的两阶段适应恢复质量。上下文扩展分两个阶段进行：一个 2T token 的中期训练阶段达到 32K，专注于推理、数学和工具使用；通过提高 RoPE 基础 θ 并增加 400B token 阶段达到 128K。两个强化学习阶段针对已知故障模式：偏好优化阶段减少长推理轨迹中的“死亡循环”，将概率质量重新分配给合理的替代方案；另一个 RL 塑造奖励惩罚诱导循环的重启词，如“Wait…”。另一个 RL 阶段使用基于 avg@k 的奖励来减少幻觉，目标是对于超出可靠知识的查询进行弃权。

基准测试情况 LFM2.5-8B-A1B 全面超越前代。AA-Omniscience 非幻觉率从 7.46 跃升至 63.47，IFEval 从 79.44 升至 91.84，MATH500 从 74.80 升至 88.76，Tau² Telecom 从 13.60 升至 88.07。Liquid AI 团队将模型与稠密和 MoE 替代方案进行了比较。在指令跟随方面，它在 IFEval 上与 Gemma-4-26B-A4B-IT 匹配，但激活参数数量少得多。在 Tau² Telecom 上，得分为 88.07，领先于更大的模型。avg@k 奖励大大降低了幻觉率，模型尺寸下的准确性保持合理。在智能体基准测试中，它与更大的模型保持竞争力。

运行：CPU、GPU 和工具 该模型在推理生态系统首日即获支持。框架包括 llama.cpp、MLX、vLLM 和 SGLang，还支持 ONNX 和 Liquid 的 LEAP 边缘平台。在 CPU 上，M5 Max 解码速度达 253 tok/s，Ryzen AI Max+ 395 达 146 tok/s，内存始终低于 6 GB。在手机上，速度约为 30 tok/s。在单个 NVIDIA H100 SXM5 上，输出吞吐量达到 18.5K token/s，高并发下每天超过 1.6B token。在工具使用方面，LFM2.5 默认编写 Pythonic 函数调用，出现在 <tool_call> 和 </tool_call> 特殊 token 之间，可以在系统提示中覆盖为 JSON。

优势和注意事项 优势：仅激活 1.5B 参数，边缘硬件推理成本低；指令跟随和智能体得分在其尺寸类别中具有竞争力；128K 上下文窗口和九种语言覆盖；采用 LFM1.0 许可证开源权重，提供基线和后期训练检查点。注意事项：激活参数少导致知识容量有限；不适合繁重的编程或知识密集型问答（无检索）；纯推理模型每次交互增加思维链 token；仅文本，无视觉或音频输入。

关键要点

Liquid AI 的 LFM2.5-8B-A1B 总参数量 8.3B，但每个 token 仅激活 1.5B。
纯推理模型，128K 上下文窗口，覆盖九种语言。
非幻觉率从 7.46 提升至 63.47，IFEval 达到 91.84。
在 M5 Max 上解码 253 tok/s，内存低于 6 GB；手机端约 30 tok/s。
首日支持 llama.cpp、MLX、vLLM 和 SGLang，提供开源基线和后期训练权重。