2026-05-30 00:19 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

Liquid AI發佈基於38T tokens訓練的8B-A1B MoE模型

Liquid AI發佈了LFM2.5-8B-A1B，一款面向終端設備的混合專家模型，總參數8B，活躍參數1B，訓練數據量達38萬億 tokens。該模型支持128K上下文窗口，擴展了詞彙表以提升非拉丁語言的分詞效率，並採用純推理鏈式思維模式。在基準測試中表現優異，同時具有出色的CPU和GPU推理速度，適用於本地代理任務。

來源Hacker News AI作者: simjnd

Liquid AI今日正式發佈LFM2.5-8B-A1B，這是一款專為消費級硬件設計的終端模型，旨在實現快速、可靠的工具調用。該模型基於2025年10月發佈的LFM2-8B-A1B進行升級，主要改進包括：上下文窗口從32,768 tokens擴展至128,000 tokens，預訓練數據量從12T tokens大幅提升至38T tokens，並引入了大規模強化學習。此外，詞彙表規模從65,536翻倍至128,000，以提升非拉丁語言（如印地語、泰語、越南語、印尼語和阿拉伯語）的分詞效率。

LFM2.5-8B-A1B採用純推理模式，在給出最終答案前會生成顯式的鏈式思維。這得益於MoE模型在計算受限環境中的優勢：活躍參數少，使得每個推理token的成本更低，從而在提升質量的同時不犧牲速度。與上一代相比，該模型在多項基準測試中取得顯著進步：AA-Omniscience指數從-78.42提升至-24.70，幻覺率從92.54%降至36.53%（非幻覺率從7.46%升至63.47%），IFEval指令跟隨準確率從79.44%提升至91.84%，數學推理（MATH500）從74.80%升至88.76%，AIME25從20.00%升至42.53%。

訓練過程中，Liquid AI採用了多項創新技術。詞彙表擴展通過原地擴展BPE分詞器實現，利用多語料庫繼續合併訓練，保持原有token ID映射，初始化新嵌入行後經過兩階段適應（先僅訓練嵌入層，再全模型繼續預訓練）恢復質量。上下文擴展分兩步完成：先通過2T tokens的中間訓練將窗口擴展至32K，再通過400B tokens的中間訓練將RoPE基頻提高並進一步擴展至128K。為減少長推理軌跡中的“死循環”問題，團隊引入了針對性的偏好優化階段，識別並重新分配觸發循環的token概率，同時使用輕量級塑形獎勵抑制諸如“Wait…”等常見循環誘導詞。為緩解邊緣模型因參數少導致的知識容量有限和幻覺問題，團隊增加了基於avg@k獎勵的強化學習階段，強化對超出可靠知識範圍的查詢的主動放棄。

在基準測試中，LFM2.5-8B-A1B不僅優於同等參數量的密集模型，還超越了許多更大的MoE模型。例如，在指令跟隨基準IFBench上獲得56.47分，超過Qwen3-30B-A3B（51.11分）和Gemma-4-26B-A4B（47.25分）；在BFCLv3和v4工具調用基準上分別達到64.79和49.73分；在Tau²電信領域準確率高達88.07%，遠高於其他對比模型。在數學和代理任務方面，AIME25達到42.53分，AIME26達到50.00分，均展現出競爭力。

推理性能方面，LFM2.5-8B-A1B從發佈首日起即獲得完整的生態系統支持，包括用於iOS/Android部署的LEAP平台、llama.cpp（GGUF格式）、MLX（Apple Silicon優化）、vLLM和SGLang（GPU加速服務）以及ONNX跨平台推理。在CPU上，該模型在M5 Max芯片上可達253 tokens/s的解碼速度，在Ryzen AI Max+ 395上為146 tokens/s，內存佔用低於6GB；在手機上也能保持約30 tokens/s。在GPU上，使用單塊NVIDIA H100 SXM5，高併發下輸出吞吐量達18,500 tokens/s，相當於單卡每日處理超過16億 tokens。

Liquid AI還展示了開源桌面代理演示LocalCowork，該演示現已基於LFM2.5-8B-A1B運行。在單枱筆記本電腦上，通過13個MCP服務器調用了67個工具，無需雲端或API密鑰，數據完全留在本地。工具選擇速度更快，可靠性顯著提升，每次分派耗時遠低於一秒，並帶有完整審計追蹤。

LFM2.5-8B-A1B採用開放權重許可，用户可自由下載、微調和部署。模型家族涵蓋基礎版、後訓練版以及未來的音視頻變體，覆蓋多樣用例。模型權重已在Hugging Face和Liquid AI Playground上線，配套文檔提供了本地運行和微調的詳細指南。