Liquid AI發佈基於38T tokens訓練的8B-A1B MoE模型
Liquid AI發佈了LFM2.5-8B-A1B,一款面向終端設備的混合專家模型,總參數8B,活躍參數1B,訓練數據量達38萬億 tokens。該模型支持128K上下文窗口,擴展了詞彙表以提升非拉丁語言的分詞效率,並採用純推理鏈式思維模式。在基準測試中表現優異,同時具有出色的CPU和GPU推理速度,適用於本地代理任務。
文章情報
要點
- LFM2.5-8B-A1B是一款8B總參數、1B活躍參數的MoE模型,訓練於38T tokens。
- 上下文窗口擴展至128K,詞彙表翻倍至128K,顯著提升非拉丁語言的處理效率。
- 專注於可靠工具調用和終端個人助理,通過強化學習大幅降低幻覺率。
- CPU和GPU吞吐量均居同尺寸模型前列,並首發支持llama.cpp、MLX、vLLM等框架。
為甚麼重要
這條新聞值得關注,因為LFM2.5-8B-A1B是一款8B總參數、1B活躍參數的MoE模型,訓練於38T tokens。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
Liquid AI今日正式發佈LFM2.5-8B-A1B,這是一款專為消費級硬件設計的終端模型,旨在實現快速、可靠的工具調用。該模型基於2025年10月發佈的LFM2-8B-A1B進行升級,主要改進包括:上下文窗口從32,768 tokens擴展至128,000 tokens,預訓練數據量從12T tokens大幅提升至38T tokens,並引入了大規模強化學習。此外,詞彙表規模從65,536翻倍至128,000,以提升非拉丁語言(如印地語、泰語、越南語、印尼語和阿拉伯語)的分詞效率。
LFM2.5-8B-A1B採用純推理模式,在給出最終答案前會生成顯式的鏈式思維。這得益於MoE模型在計算受限環境中的優勢:活躍參數少,使得每個推理token的成本更低,從而在提升質量的同時不犧牲速度。與上一代相比,該模型在多項基準測試中取得顯著進步:AA-Omniscience指數從-78.42提升至-24.70,幻覺率從92.54%降至36.53%(非幻覺率從7.46%升至63.47%),IFEval指令跟隨準確率從79.44%提升至91.84%,數學推理(MATH500)從74.80%升至88.76%,AIME25從20.00%升至42.53%。
訓練過程中,Liquid AI採用了多項創新技術。詞彙表擴展通過原地擴展BPE分詞器實現,利用多語料庫繼續合併訓練,保持原有token ID映射,初始化新嵌入行後經過兩階段適應(先僅訓練嵌入層,再全模型繼續預訓練)恢復質量。上下文擴展分兩步完成:先通過2T tokens的中間訓練將窗口擴展至32K,再通過400B tokens的中間訓練將RoPE基頻提高並進一步擴展至128K。為減少長推理軌跡中的“死循環”問題,團隊引入了針對性的偏好優化階段,識別並重新分配觸發循環的token概率,同時使用輕量級塑形獎勵抑制諸如“Wait…”等常見循環誘導詞。為緩解邊緣模型因參數少導致的知識容量有限和幻覺問題,團隊增加了基於avg@k獎勵的強化學習階段,強化對超出可靠知識範圍的查詢的主動放棄。
在基準測試中,LFM2.5-8B-A1B不僅優於同等參數量的密集模型,還超越了許多更大的MoE模型。例如,在指令跟隨基準IFBench上獲得56.47分,超過Qwen3-30B-A3B(51.11分)和Gemma-4-26B-A4B(47.25分);在BFCLv3和v4工具調用基準上分別達到64.79和49.73分;在Tau²電信領域準確率高達88.07%,遠高於其他對比模型。在數學和代理任務方面,AIME25達到42.53分,AIME26達到50.00分,均展現出競爭力。
推理性能方面,LFM2.5-8B-A1B從發佈首日起即獲得完整的生態系統支持,包括用於iOS/Android部署的LEAP平台、llama.cpp(GGUF格式)、MLX(Apple Silicon優化)、vLLM和SGLang(GPU加速服務)以及ONNX跨平台推理。在CPU上,該模型在M5 Max芯片上可達253 tokens/s的解碼速度,在Ryzen AI Max+ 395上為146 tokens/s,內存佔用低於6GB;在手機上也能保持約30 tokens/s。在GPU上,使用單塊NVIDIA H100 SXM5,高併發下輸出吞吐量達18,500 tokens/s,相當於單卡每日處理超過16億 tokens。
Liquid AI還展示了開源桌面代理演示LocalCowork,該演示現已基於LFM2.5-8B-A1B運行。在單枱筆記本電腦上,通過13個MCP服務器調用了67個工具,無需雲端或API密鑰,數據完全留在本地。工具選擇速度更快,可靠性顯著提升,每次分派耗時遠低於一秒,並帶有完整審計追蹤。
LFM2.5-8B-A1B採用開放權重許可,用户可自由下載、微調和部署。模型家族涵蓋基礎版、後訓練版以及未來的音視頻變體,覆蓋多樣用例。模型權重已在Hugging Face和Liquid AI Playground上線,配套文檔提供了本地運行和微調的詳細指南。