AI News HubLIVE
站内改写

Liquid AI发布基于38T tokens训练的8B-A1B MoE模型

Liquid AI发布了LFM2.5-8B-A1B,一款面向终端设备的混合专家模型,总参数8B,活跃参数1B,训练数据量达38万亿 tokens。该模型支持128K上下文窗口,扩展了词汇表以提升非拉丁语言的分词效率,并采用纯推理链式思维模式。在基准测试中表现优异,同时具有出色的CPU和GPU推理速度,适用于本地代理任务。

文章情报

工程师进阶

要点

  • LFM2.5-8B-A1B是一款8B总参数、1B活跃参数的MoE模型,训练于38T tokens。
  • 上下文窗口扩展至128K,词汇表翻倍至128K,显著提升非拉丁语言的处理效率。
  • 专注于可靠工具调用和终端个人助理,通过强化学习大幅降低幻觉率。
  • CPU和GPU吞吐量均居同尺寸模型前列,并首发支持llama.cpp、MLX、vLLM等框架。

为什么重要

这条新闻值得关注,因为LFM2.5-8B-A1B是一款8B总参数、1B活跃参数的MoE模型,训练于38T tokens。

技术影响

可能影响模型选型、推理成本、产品能力和评测基准。

Liquid AI今日正式发布LFM2.5-8B-A1B,这是一款专为消费级硬件设计的终端模型,旨在实现快速、可靠的工具调用。该模型基于2025年10月发布的LFM2-8B-A1B进行升级,主要改进包括:上下文窗口从32,768 tokens扩展至128,000 tokens,预训练数据量从12T tokens大幅提升至38T tokens,并引入了大规模强化学习。此外,词汇表规模从65,536翻倍至128,000,以提升非拉丁语言(如印地语、泰语、越南语、印尼语和阿拉伯语)的分词效率。

LFM2.5-8B-A1B采用纯推理模式,在给出最终答案前会生成显式的链式思维。这得益于MoE模型在计算受限环境中的优势:活跃参数少,使得每个推理token的成本更低,从而在提升质量的同时不牺牲速度。与上一代相比,该模型在多项基准测试中取得显著进步:AA-Omniscience指数从-78.42提升至-24.70,幻觉率从92.54%降至36.53%(非幻觉率从7.46%升至63.47%),IFEval指令跟随准确率从79.44%提升至91.84%,数学推理(MATH500)从74.80%升至88.76%,AIME25从20.00%升至42.53%。

训练过程中,Liquid AI采用了多项创新技术。词汇表扩展通过原地扩展BPE分词器实现,利用多语料库继续合并训练,保持原有token ID映射,初始化新嵌入行后经过两阶段适应(先仅训练嵌入层,再全模型继续预训练)恢复质量。上下文扩展分两步完成:先通过2T tokens的中间训练将窗口扩展至32K,再通过400B tokens的中间训练将RoPE基频提高并进一步扩展至128K。为减少长推理轨迹中的“死循环”问题,团队引入了针对性的偏好优化阶段,识别并重新分配触发循环的token概率,同时使用轻量级塑形奖励抑制诸如“Wait…”等常见循环诱导词。为缓解边缘模型因参数少导致的知识容量有限和幻觉问题,团队增加了基于avg@k奖励的强化学习阶段,强化对超出可靠知识范围的查询的主动放弃。

在基准测试中,LFM2.5-8B-A1B不仅优于同等参数量的密集模型,还超越了许多更大的MoE模型。例如,在指令跟随基准IFBench上获得56.47分,超过Qwen3-30B-A3B(51.11分)和Gemma-4-26B-A4B(47.25分);在BFCLv3和v4工具调用基准上分别达到64.79和49.73分;在Tau²电信领域准确率高达88.07%,远高于其他对比模型。在数学和代理任务方面,AIME25达到42.53分,AIME26达到50.00分,均展现出竞争力。

推理性能方面,LFM2.5-8B-A1B从发布首日起即获得完整的生态系统支持,包括用于iOS/Android部署的LEAP平台、llama.cpp(GGUF格式)、MLX(Apple Silicon优化)、vLLM和SGLang(GPU加速服务)以及ONNX跨平台推理。在CPU上,该模型在M5 Max芯片上可达253 tokens/s的解码速度,在Ryzen AI Max+ 395上为146 tokens/s,内存占用低于6GB;在手机上也能保持约30 tokens/s。在GPU上,使用单块NVIDIA H100 SXM5,高并发下输出吞吐量达18,500 tokens/s,相当于单卡每日处理超过16亿 tokens。

Liquid AI还展示了开源桌面代理演示LocalCowork,该演示现已基于LFM2.5-8B-A1B运行。在单台笔记本电脑上,通过13个MCP服务器调用了67个工具,无需云端或API密钥,数据完全留在本地。工具选择速度更快,可靠性显著提升,每次分派耗时远低于一秒,并带有完整审计追踪。

LFM2.5-8B-A1B采用开放权重许可,用户可自由下载、微调和部署。模型家族涵盖基础版、后训练版以及未来的音视频变体,覆盖多样用例。模型权重已在Hugging Face和Liquid AI Playground上线,配套文档提供了本地运行和微调的详细指南。