Liquid AI 發佈 LFM2.5-8B-A1B:面向設備的 MoE 模型,總參數量 8.3B,激活參數量 1.5B
Liquid AI 推出了 LFM2.5-8B-A1B,這是一款面向設備的混合專家(MoE)模型,專為工具調用設計。該模型總參數量為 8.3B,但每個 token 僅激活 1.5B 參數,從而能夠在消費級硬件上運行。它支持 128K 上下文窗口、推理能力,並覆蓋九種語言。相比前代 LFM2-8B-A1B,該模型在非幻覺率、指令遵循、數學推理等基準測試中均有顯著提升。
文章情報
要點
- LFM2.5-8B-A1B 採用稀疏 MoE 架構,總參數量 8.3B,每個 token 僅激活 1.5B 參數,適合邊緣硬件部署。
- 支持 128K 上下文窗口,覆蓋九種語言,包括阿拉伯語、中文和日語。
- 非幻覺率從 7.46 提升至 63.47,IFEval 得分從 79.44 提升至 91.84。
- 在 M5 Max 上解碼速度達 253 tok/s,內存低於 6 GB;手機端約 30 tok/s。
為甚麼重要
這條新聞值得關注,因為LFM2.5-8B-A1B 採用稀疏 MoE 架構,總參數量 8.3B,每個 token 僅激活 1.5B 參數,適合邊緣硬件部署。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
Liquid AI 日前發佈了 LFM2.5-8B-A1B,這是一款面向設備的混合專家(Mixture-of-Experts, MoE)模型,專為工具調用而構建。該模型總參數量為 8.3B,但每個 token 僅激活 1.5B 參數,這種稀疏性使其能夠在消費級硬件上運行。
此次發佈緊隨 LFM2-8B-A1B 之後,後者由 Liquid AI 團隊更早發佈。LFM2.5 是一個用於設備端部署的新系列混合模型。此版本增加了 128K 上下文窗口、推理能力,並擴展了訓練規模。
什麼是 LFM2.5-8B-A1B 該模型採用稀疏 MoE 設計,每次前向傳播僅激活 8.3B 總參數中的 1.5B,這使得每個生成 token 的計算成本低廉。架構包含 24 層,其中 18 層為雙門控 LIV 卷積塊,6 層為 GQA 層。它結合了 MoE、GQA 和門控短卷積塊。上下文長度為 131,072 個 token,覆蓋九種語言,包括阿拉伯語、中文和日語。Liquid AI 團隊推薦使用温度 0.2、top_k 80 和重複懲罰 1.05。
與前代不同,LFM2.5-8B-A1B 是純推理模型,在最終答案之前生成顯式的思維鏈。Liquid AI 團隊選擇此設計是因為 MoE 模型在計算受限的環境中運行,較小的激活參數數量使每個推理 token 成本較低。
自 LFM2-8B-A1B 以來的變化 Liquid 將上下文窗口從 32,768 擴展到 128,000 個 token。預訓練數據從 12T token 擴展到 38T。詞彙量從 65,536 翻倍至 128,000。更大的詞彙量更高效地對非拉丁文字進行分詞。Liquid AI 團隊報告稱,印地語、泰語、越南語、印度尼西亞語和阿拉伯語的壓縮增益最大。架構的其他部分與 LFM2-8B-A1B 保持一致。
訓練過程 Liquid AI 團隊對分詞器進行了原地擴展,而非從頭重新訓練。他們在多語言語料庫上從原始合併繼續 BPE 合併訓練。新的嵌入行初始化為其子 token 分解的均值。隨後通過簡短的兩階段適應恢復質量。上下文擴展分兩個階段進行:一個 2T token 的中期訓練階段達到 32K,專注於推理、數學和工具使用;通過提高 RoPE 基礎 θ 並增加 400B token 階段達到 128K。兩個強化學習階段針對已知故障模式:偏好優化階段減少長推理軌跡中的“死亡循環”,將概率質量重新分配給合理的替代方案;另一個 RL 塑造獎勵懲罰誘導循環的重啓詞,如“Wait…”。另一個 RL 階段使用基於 avg@k 的獎勵來減少幻覺,目標是對於超出可靠知識的查詢進行棄權。
基準測試情況 LFM2.5-8B-A1B 全面超越前代。AA-Omniscience 非幻覺率從 7.46 躍升至 63.47,IFEval 從 79.44 升至 91.84,MATH500 從 74.80 升至 88.76,Tau² Telecom 從 13.60 升至 88.07。Liquid AI 團隊將模型與稠密和 MoE 替代方案進行了比較。在指令跟隨方面,它在 IFEval 上與 Gemma-4-26B-A4B-IT 匹配,但激活參數數量少得多。在 Tau² Telecom 上,得分為 88.07,領先於更大的模型。avg@k 獎勵大大降低了幻覺率,模型尺寸下的準確性保持合理。在智能體基準測試中,它與更大的模型保持競爭力。
運行:CPU、GPU 和工具 該模型在推理生態系統首日即獲支持。框架包括 llama.cpp、MLX、vLLM 和 SGLang,還支持 ONNX 和 Liquid 的 LEAP 邊緣平台。在 CPU 上,M5 Max 解碼速度達 253 tok/s,Ryzen AI Max+ 395 達 146 tok/s,內存始終低於 6 GB。在手機上,速度約為 30 tok/s。在單個 NVIDIA H100 SXM5 上,輸出吞吐量達到 18.5K token/s,高併發下每天超過 1.6B token。在工具使用方面,LFM2.5 默認編寫 Pythonic 函數調用,出現在 <tool_call> 和 </tool_call> 特殊 token 之間,可以在系統提示中覆蓋為 JSON。
優勢和注意事項 優勢:僅激活 1.5B 參數,邊緣硬件推理成本低;指令跟隨和智能體得分在其尺寸類別中具有競爭力;128K 上下文窗口和九種語言覆蓋;採用 LFM1.0 許可證開源權重,提供基線和後期訓練檢查點。注意事項:激活參數少導致知識容量有限;不適合繁重的編程或知識密集型問答(無檢索);純推理模型每次交互增加思維鏈 token;僅文本,無視覺或音頻輸入。
關鍵要點
- Liquid AI 的 LFM2.5-8B-A1B 總參數量 8.3B,但每個 token 僅激活 1.5B。
- 純推理模型,128K 上下文窗口,覆蓋九種語言。
- 非幻覺率從 7.46 提升至 63.47,IFEval 達到 91.84。
- 在 M5 Max 上解碼 253 tok/s,內存低於 6 GB;手機端約 30 tok/s。
- 首日支持 llama.cpp、MLX、vLLM 和 SGLang,提供開源基線和後期訓練權重。