Liquid AI 发布 LFM2.5-230M:支持 on-device 推理,兼容 llama.cpp、MLX 等多种框架
Liquid AI 发布其最小模型 LFM2.5-230M,仅 2.3 亿参数,开放权重,专为边缘设备上的工具使用和数据提取设计。在 Galaxy S25 Ultra 上可达 213 tok/s,在树莓派 5 上为 42 tok/s。该模型在指令遵循和数据提取上超越 Qwen3.5-0.8B 和 Gemma 3 1B。提供基础版和指令调优版,支持 32K 上下文,兼容多项推理框架。
Liquid AI 发布了其迄今为止最小的模型——LFM2.5-230M。该模型旨在支持手机、机器人和自动化设备上的智能体任务。基础版和指令调优版均以开放权重形式发布在 Hugging Face 上。
LFM2.5-230M 是一款仅文本模型,基于 LFM2 架构,拥有 2.3 亿参数。模型共 14 层,其中 8 层为双门控 LIV 卷积块,6 层为分组查询注意力(GQA)块,这种混合设计针对快速 CPU 推理进行了优化。上下文长度为 32,768 个 token,词汇量 65,536,知识截止时间为 2024 年中,支持包括英语、中文、阿拉伯语和日语在内的十种语言。
训练方面,模型在 19 万亿 token 上进行预训练,其中包括 32K 上下文扩展阶段。后训练分为三个阶段:首先是利用更大的 LFM2.5-350M 进行蒸馏监督微调,然后是直接偏好优化(DPO),最后是多领域强化学习。这些步骤确保了模型在目标任务上的竞争力。
在基准测试中,LFM2.5-230M 在指令遵循和数据提取上表现出色。IFEval 得分 71.71,超过 Qwen3.5-0.8B(59.94)和 Gemma 3 1B IT(63.49);IFBench 得分 38.40;临床数据提取测试 CaseReportBench 得分 22.51。然而,在广泛知识任务(如 MMLU-Pro)上得分 20.25,落后于 Qwen3.5-0.8B 的 37.42;在工具使用基准 τ²-Bench Telecom 上仅得 5.26。Liquid AI 明确表示该模型不适用于高级数学、代码生成或创意写作等推理密集型任务。
LFM2.5-230M 的两个主要应用场景是:大规模数据提取流水线和轻量级边缘智能体工作负载。例如,在 4 位量化下,该模型仅需 293–375 MB 内存,可在普通 CPU 上运行临床报告解析;或者作为家庭自动化中枢,将语音转换为工具调用。早期信号显示,该模型已部署在 Unitree G1 人形机器人上,完全运行于机载 NVIDIA Jetson Orin,作为技能选择层将自然语言指令转为工具调用序列。
模型支持函数调用,包括四个步骤:在系统提示中定义 JSON 工具,模型输出 Python 风格函数调用,执行后返回结果,模型再给出纯文本回答。开发者可通过 Transformers 5.0.0+ 轻松加载,推荐设置 temperature=0.1、top_k=50、repetition_penalty=1.05。Liquid AI 还提供了微调教程,涵盖 SFT、DPO 和 GRPO 的 LoRA 方法,附有 Colab 笔记本。该模型采用 lfm1.0 许可证。