2026-05-30 00:19 UTC+8站内改写2 分钟阅读更新: 2026-06-30 21:03 UTC+8

Liquid AI发布基于38T tokens训练的8B-A1B MoE模型

Liquid AI发布了LFM2.5-8B-A1B，一款面向终端设备的混合专家模型，总参数8B，活跃参数1B，训练数据量达38万亿 tokens。该模型支持128K上下文窗口，扩展了词汇表以提升非拉丁语言的分词效率，并采用纯推理链式思维模式。在基准测试中表现优异，同时具有出色的CPU和GPU推理速度，适用于本地代理任务。

来源Hacker News AI作者: simjnd

Liquid AI今日正式发布LFM2.5-8B-A1B，这是一款专为消费级硬件设计的终端模型，旨在实现快速、可靠的工具调用。该模型基于2025年10月发布的LFM2-8B-A1B进行升级，主要改进包括：上下文窗口从32,768 tokens扩展至128,000 tokens，预训练数据量从12T tokens大幅提升至38T tokens，并引入了大规模强化学习。此外，词汇表规模从65,536翻倍至128,000，以提升非拉丁语言（如印地语、泰语、越南语、印尼语和阿拉伯语）的分词效率。

LFM2.5-8B-A1B采用纯推理模式，在给出最终答案前会生成显式的链式思维。这得益于MoE模型在计算受限环境中的优势：活跃参数少，使得每个推理token的成本更低，从而在提升质量的同时不牺牲速度。与上一代相比，该模型在多项基准测试中取得显著进步：AA-Omniscience指数从-78.42提升至-24.70，幻觉率从92.54%降至36.53%（非幻觉率从7.46%升至63.47%），IFEval指令跟随准确率从79.44%提升至91.84%，数学推理（MATH500）从74.80%升至88.76%，AIME25从20.00%升至42.53%。

训练过程中，Liquid AI采用了多项创新技术。词汇表扩展通过原地扩展BPE分词器实现，利用多语料库继续合并训练，保持原有token ID映射，初始化新嵌入行后经过两阶段适应（先仅训练嵌入层，再全模型继续预训练）恢复质量。上下文扩展分两步完成：先通过2T tokens的中间训练将窗口扩展至32K，再通过400B tokens的中间训练将RoPE基频提高并进一步扩展至128K。为减少长推理轨迹中的“死循环”问题，团队引入了针对性的偏好优化阶段，识别并重新分配触发循环的token概率，同时使用轻量级塑形奖励抑制诸如“Wait…”等常见循环诱导词。为缓解边缘模型因参数少导致的知识容量有限和幻觉问题，团队增加了基于avg@k奖励的强化学习阶段，强化对超出可靠知识范围的查询的主动放弃。

在基准测试中，LFM2.5-8B-A1B不仅优于同等参数量的密集模型，还超越了许多更大的MoE模型。例如，在指令跟随基准IFBench上获得56.47分，超过Qwen3-30B-A3B（51.11分）和Gemma-4-26B-A4B（47.25分）；在BFCLv3和v4工具调用基准上分别达到64.79和49.73分；在Tau²电信领域准确率高达88.07%，远高于其他对比模型。在数学和代理任务方面，AIME25达到42.53分，AIME26达到50.00分，均展现出竞争力。

推理性能方面，LFM2.5-8B-A1B从发布首日起即获得完整的生态系统支持，包括用于iOS/Android部署的LEAP平台、llama.cpp（GGUF格式）、MLX（Apple Silicon优化）、vLLM和SGLang（GPU加速服务）以及ONNX跨平台推理。在CPU上，该模型在M5 Max芯片上可达253 tokens/s的解码速度，在Ryzen AI Max+ 395上为146 tokens/s，内存占用低于6GB；在手机上也能保持约30 tokens/s。在GPU上，使用单块NVIDIA H100 SXM5，高并发下输出吞吐量达18,500 tokens/s，相当于单卡每日处理超过16亿 tokens。

Liquid AI还展示了开源桌面代理演示LocalCowork，该演示现已基于LFM2.5-8B-A1B运行。在单台笔记本电脑上，通过13个MCP服务器调用了67个工具，无需云端或API密钥，数据完全留在本地。工具选择速度更快，可靠性显著提升，每次分派耗时远低于一秒，并带有完整审计追踪。

LFM2.5-8B-A1B采用开放权重许可，用户可自由下载、微调和部署。模型家族涵盖基础版、后训练版以及未来的音视频变体，覆盖多样用例。模型权重已在Hugging Face和Liquid AI Playground上线，配套文档提供了本地运行和微调的详细指南。