Liquid AI 发布 LFM2.5-8B-A1B:面向设备的 MoE 模型,总参数量 8.3B,激活参数量 1.5B
Liquid AI 推出了 LFM2.5-8B-A1B,这是一款面向设备的混合专家(MoE)模型,专为工具调用设计。该模型总参数量为 8.3B,但每个 token 仅激活 1.5B 参数,从而能够在消费级硬件上运行。它支持 128K 上下文窗口、推理能力,并覆盖九种语言。相比前代 LFM2-8B-A1B,该模型在非幻觉率、指令遵循、数学推理等基准测试中均有显著提升。
文章情报
要点
- LFM2.5-8B-A1B 采用稀疏 MoE 架构,总参数量 8.3B,每个 token 仅激活 1.5B 参数,适合边缘硬件部署。
- 支持 128K 上下文窗口,覆盖九种语言,包括阿拉伯语、中文和日语。
- 非幻觉率从 7.46 提升至 63.47,IFEval 得分从 79.44 提升至 91.84。
- 在 M5 Max 上解码速度达 253 tok/s,内存低于 6 GB;手机端约 30 tok/s。
为什么重要
这条新闻值得关注,因为LFM2.5-8B-A1B 采用稀疏 MoE 架构,总参数量 8.3B,每个 token 仅激活 1.5B 参数,适合边缘硬件部署。
技术影响
可能影响模型选型、推理成本、产品能力和评测基准。
Liquid AI 日前发布了 LFM2.5-8B-A1B,这是一款面向设备的混合专家(Mixture-of-Experts, MoE)模型,专为工具调用而构建。该模型总参数量为 8.3B,但每个 token 仅激活 1.5B 参数,这种稀疏性使其能够在消费级硬件上运行。
此次发布紧随 LFM2-8B-A1B 之后,后者由 Liquid AI 团队更早发布。LFM2.5 是一个用于设备端部署的新系列混合模型。此版本增加了 128K 上下文窗口、推理能力,并扩展了训练规模。
什么是 LFM2.5-8B-A1B 该模型采用稀疏 MoE 设计,每次前向传播仅激活 8.3B 总参数中的 1.5B,这使得每个生成 token 的计算成本低廉。架构包含 24 层,其中 18 层为双门控 LIV 卷积块,6 层为 GQA 层。它结合了 MoE、GQA 和门控短卷积块。上下文长度为 131,072 个 token,覆盖九种语言,包括阿拉伯语、中文和日语。Liquid AI 团队推荐使用温度 0.2、top_k 80 和重复惩罚 1.05。
与前代不同,LFM2.5-8B-A1B 是纯推理模型,在最终答案之前生成显式的思维链。Liquid AI 团队选择此设计是因为 MoE 模型在计算受限的环境中运行,较小的激活参数数量使每个推理 token 成本较低。
自 LFM2-8B-A1B 以来的变化 Liquid 将上下文窗口从 32,768 扩展到 128,000 个 token。预训练数据从 12T token 扩展到 38T。词汇量从 65,536 翻倍至 128,000。更大的词汇量更高效地对非拉丁文字进行分词。Liquid AI 团队报告称,印地语、泰语、越南语、印度尼西亚语和阿拉伯语的压缩增益最大。架构的其他部分与 LFM2-8B-A1B 保持一致。
训练过程 Liquid AI 团队对分词器进行了原地扩展,而非从头重新训练。他们在多语言语料库上从原始合并继续 BPE 合并训练。新的嵌入行初始化为其子 token 分解的均值。随后通过简短的两阶段适应恢复质量。上下文扩展分两个阶段进行:一个 2T token 的中期训练阶段达到 32K,专注于推理、数学和工具使用;通过提高 RoPE 基础 θ 并增加 400B token 阶段达到 128K。两个强化学习阶段针对已知故障模式:偏好优化阶段减少长推理轨迹中的“死亡循环”,将概率质量重新分配给合理的替代方案;另一个 RL 塑造奖励惩罚诱导循环的重启词,如“Wait…”。另一个 RL 阶段使用基于 avg@k 的奖励来减少幻觉,目标是对于超出可靠知识的查询进行弃权。
基准测试情况 LFM2.5-8B-A1B 全面超越前代。AA-Omniscience 非幻觉率从 7.46 跃升至 63.47,IFEval 从 79.44 升至 91.84,MATH500 从 74.80 升至 88.76,Tau² Telecom 从 13.60 升至 88.07。Liquid AI 团队将模型与稠密和 MoE 替代方案进行了比较。在指令跟随方面,它在 IFEval 上与 Gemma-4-26B-A4B-IT 匹配,但激活参数数量少得多。在 Tau² Telecom 上,得分为 88.07,领先于更大的模型。avg@k 奖励大大降低了幻觉率,模型尺寸下的准确性保持合理。在智能体基准测试中,它与更大的模型保持竞争力。
运行:CPU、GPU 和工具 该模型在推理生态系统首日即获支持。框架包括 llama.cpp、MLX、vLLM 和 SGLang,还支持 ONNX 和 Liquid 的 LEAP 边缘平台。在 CPU 上,M5 Max 解码速度达 253 tok/s,Ryzen AI Max+ 395 达 146 tok/s,内存始终低于 6 GB。在手机上,速度约为 30 tok/s。在单个 NVIDIA H100 SXM5 上,输出吞吐量达到 18.5K token/s,高并发下每天超过 1.6B token。在工具使用方面,LFM2.5 默认编写 Pythonic 函数调用,出现在 <tool_call> 和 </tool_call> 特殊 token 之间,可以在系统提示中覆盖为 JSON。
优势和注意事项 优势:仅激活 1.5B 参数,边缘硬件推理成本低;指令跟随和智能体得分在其尺寸类别中具有竞争力;128K 上下文窗口和九种语言覆盖;采用 LFM1.0 许可证开源权重,提供基线和后期训练检查点。注意事项:激活参数少导致知识容量有限;不适合繁重的编程或知识密集型问答(无检索);纯推理模型每次交互增加思维链 token;仅文本,无视觉或音频输入。
关键要点
- Liquid AI 的 LFM2.5-8B-A1B 总参数量 8.3B,但每个 token 仅激活 1.5B。
- 纯推理模型,128K 上下文窗口,覆盖九种语言。
- 非幻觉率从 7.46 提升至 63.47,IFEval 达到 91.84。
- 在 M5 Max 上解码 253 tok/s,内存低于 6 GB;手机端约 30 tok/s。
- 首日支持 llama.cpp、MLX、vLLM 和 SGLang,提供开源基线和后期训练权重。