2026-05-29 07:29 UTC+8站內改寫3 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

Liquid AI 發佈 LFM2.5-8B-A1B：面向設備的 MoE 模型，總參數量 8.3B，激活參數量 1.5B

Liquid AI 推出了 LFM2.5-8B-A1B，這是一款面向設備的混合專家（MoE）模型，專為工具調用設計。該模型總參數量為 8.3B，但每個 token 僅激活 1.5B 參數，從而能夠在消費級硬件上運行。它支持 128K 上下文窗口、推理能力，並覆蓋九種語言。相比前代 LFM2-8B-A1B，該模型在非幻覺率、指令遵循、數學推理等基準測試中均有顯著提升。

來源MarkTechPost作者: Asif Razzaq

Liquid AI 日前發佈了 LFM2.5-8B-A1B，這是一款面向設備的混合專家（Mixture-of-Experts, MoE）模型，專為工具調用而構建。該模型總參數量為 8.3B，但每個 token 僅激活 1.5B 參數，這種稀疏性使其能夠在消費級硬件上運行。

此次發佈緊隨 LFM2-8B-A1B 之後，後者由 Liquid AI 團隊更早發佈。LFM2.5 是一個用於設備端部署的新系列混合模型。此版本增加了 128K 上下文窗口、推理能力，並擴展了訓練規模。

什麼是 LFM2.5-8B-A1B 該模型採用稀疏 MoE 設計，每次前向傳播僅激活 8.3B 總參數中的 1.5B，這使得每個生成 token 的計算成本低廉。架構包含 24 層，其中 18 層為雙門控 LIV 卷積塊，6 層為 GQA 層。它結合了 MoE、GQA 和門控短卷積塊。上下文長度為 131,072 個 token，覆蓋九種語言，包括阿拉伯語、中文和日語。Liquid AI 團隊推薦使用温度 0.2、top_k 80 和重複懲罰 1.05。

與前代不同，LFM2.5-8B-A1B 是純推理模型，在最終答案之前生成顯式的思維鏈。Liquid AI 團隊選擇此設計是因為 MoE 模型在計算受限的環境中運行，較小的激活參數數量使每個推理 token 成本較低。

自 LFM2-8B-A1B 以來的變化 Liquid 將上下文窗口從 32,768 擴展到 128,000 個 token。預訓練數據從 12T token 擴展到 38T。詞彙量從 65,536 翻倍至 128,000。更大的詞彙量更高效地對非拉丁文字進行分詞。Liquid AI 團隊報告稱，印地語、泰語、越南語、印度尼西亞語和阿拉伯語的壓縮增益最大。架構的其他部分與 LFM2-8B-A1B 保持一致。

訓練過程 Liquid AI 團隊對分詞器進行了原地擴展，而非從頭重新訓練。他們在多語言語料庫上從原始合併繼續 BPE 合併訓練。新的嵌入行初始化為其子 token 分解的均值。隨後通過簡短的兩階段適應恢復質量。上下文擴展分兩個階段進行：一個 2T token 的中期訓練階段達到 32K，專注於推理、數學和工具使用；通過提高 RoPE 基礎 θ 並增加 400B token 階段達到 128K。兩個強化學習階段針對已知故障模式：偏好優化階段減少長推理軌跡中的“死亡循環”，將概率質量重新分配給合理的替代方案；另一個 RL 塑造獎勵懲罰誘導循環的重啓詞，如“Wait…”。另一個 RL 階段使用基於 avg@k 的獎勵來減少幻覺，目標是對於超出可靠知識的查詢進行棄權。

基準測試情況 LFM2.5-8B-A1B 全面超越前代。AA-Omniscience 非幻覺率從 7.46 躍升至 63.47，IFEval 從 79.44 升至 91.84，MATH500 從 74.80 升至 88.76，Tau² Telecom 從 13.60 升至 88.07。Liquid AI 團隊將模型與稠密和 MoE 替代方案進行了比較。在指令跟隨方面，它在 IFEval 上與 Gemma-4-26B-A4B-IT 匹配，但激活參數數量少得多。在 Tau² Telecom 上，得分為 88.07，領先於更大的模型。avg@k 獎勵大大降低了幻覺率，模型尺寸下的準確性保持合理。在智能體基準測試中，它與更大的模型保持競爭力。

運行：CPU、GPU 和工具 該模型在推理生態系統首日即獲支持。框架包括 llama.cpp、MLX、vLLM 和 SGLang，還支持 ONNX 和 Liquid 的 LEAP 邊緣平台。在 CPU 上，M5 Max 解碼速度達 253 tok/s，Ryzen AI Max+ 395 達 146 tok/s，內存始終低於 6 GB。在手機上，速度約為 30 tok/s。在單個 NVIDIA H100 SXM5 上，輸出吞吐量達到 18.5K token/s，高併發下每天超過 1.6B token。在工具使用方面，LFM2.5 默認編寫 Pythonic 函數調用，出現在 <tool_call> 和 </tool_call> 特殊 token 之間，可以在系統提示中覆蓋為 JSON。

優勢和注意事項 優勢：僅激活 1.5B 參數，邊緣硬件推理成本低；指令跟隨和智能體得分在其尺寸類別中具有競爭力；128K 上下文窗口和九種語言覆蓋；採用 LFM1.0 許可證開源權重，提供基線和後期訓練檢查點。注意事項：激活參數少導致知識容量有限；不適合繁重的編程或知識密集型問答（無檢索）；純推理模型每次交互增加思維鏈 token；僅文本，無視覺或音頻輸入。

關鍵要點

Liquid AI 的 LFM2.5-8B-A1B 總參數量 8.3B，但每個 token 僅激活 1.5B。
純推理模型，128K 上下文窗口，覆蓋九種語言。
非幻覺率從 7.46 提升至 63.47，IFEval 達到 91.84。
在 M5 Max 上解碼 253 tok/s，內存低於 6 GB；手機端約 30 tok/s。
首日支持 llama.cpp、MLX、vLLM 和 SGLang，提供開源基線和後期訓練權重。