2026-06-28 12:58 UTC+8站内改写2 分钟阅读更新: 2026-06-28 13:22 UTC+8

Liquid AI 发布 LFM2.5-230M：支持 on-device 推理，兼容 llama.cpp、MLX 等多种框架

Liquid AI 发布其最小模型 LFM2.5-230M，仅 2.3 亿参数，开放权重，专为边缘设备上的工具使用和数据提取设计。在 Galaxy S25 Ultra 上可达 213 tok/s，在树莓派 5 上为 42 tok/s。该模型在指令遵循和数据提取上超越 Qwen3.5-0.8B 和 Gemma 3 1B。提供基础版和指令调优版，支持 32K 上下文，兼容多项推理框架。

来源MarkTechPost作者: Asif Razzaq

Liquid AI 发布了其迄今为止最小的模型——LFM2.5-230M。该模型旨在支持手机、机器人和自动化设备上的智能体任务。基础版和指令调优版均以开放权重形式发布在 Hugging Face 上。

LFM2.5-230M 是一款仅文本模型，基于 LFM2 架构，拥有 2.3 亿参数。模型共 14 层，其中 8 层为双门控 LIV 卷积块，6 层为分组查询注意力（GQA）块，这种混合设计针对快速 CPU 推理进行了优化。上下文长度为 32,768 个 token，词汇量 65,536，知识截止时间为 2024 年中，支持包括英语、中文、阿拉伯语和日语在内的十种语言。

训练方面，模型在 19 万亿 token 上进行预训练，其中包括 32K 上下文扩展阶段。后训练分为三个阶段：首先是利用更大的 LFM2.5-350M 进行蒸馏监督微调，然后是直接偏好优化（DPO），最后是多领域强化学习。这些步骤确保了模型在目标任务上的竞争力。

在基准测试中，LFM2.5-230M 在指令遵循和数据提取上表现出色。IFEval 得分 71.71，超过 Qwen3.5-0.8B（59.94）和 Gemma 3 1B IT（63.49）；IFBench 得分 38.40；临床数据提取测试 CaseReportBench 得分 22.51。然而，在广泛知识任务（如 MMLU-Pro）上得分 20.25，落后于 Qwen3.5-0.8B 的 37.42；在工具使用基准 τ²-Bench Telecom 上仅得 5.26。Liquid AI 明确表示该模型不适用于高级数学、代码生成或创意写作等推理密集型任务。

LFM2.5-230M 的两个主要应用场景是：大规模数据提取流水线和轻量级边缘智能体工作负载。例如，在 4 位量化下，该模型仅需 293–375 MB 内存，可在普通 CPU 上运行临床报告解析；或者作为家庭自动化中枢，将语音转换为工具调用。早期信号显示，该模型已部署在 Unitree G1 人形机器人上，完全运行于机载 NVIDIA Jetson Orin，作为技能选择层将自然语言指令转为工具调用序列。

模型支持函数调用，包括四个步骤：在系统提示中定义 JSON 工具，模型输出 Python 风格函数调用，执行后返回结果，模型再给出纯文本回答。开发者可通过 Transformers 5.0.0+ 轻松加载，推荐设置 temperature=0.1、top_k=50、repetition_penalty=1.05。Liquid AI 还提供了微调教程，涵盖 SFT、DPO 和 GRPO 的 LoRA 方法，附有 Colab 笔记本。该模型采用 lfm1.0 许可证。